混合分布是来自其他随机变量的集合构成的随机变量的概率分布:一个随机变量是根据给定的概率从集合随机选取的,然后所选随机变量的值就得到了( first, a random variable is selected by chance from the collection according to given probabilities of selection, and then the value of the selected random variable is realized)。
当潜在的随机变量是连续的情况下,混合得到的随机变量也是连续的,并且其概率密度函数有时被称作是一个混合密度,其累积分布函数(cumulative distribution function)可以表示成其他分布函数的凸组合(convex combination,i.e. a weighted sum, with non-negative weights that sum to 1)。
给定一个有限的概率密度函数集合p1(x),...,pn(x),或者相对应的累积分布函数P1(x),...,Pn(x)和权值w1,...,wn(wi>=0,sum(wi)=1),该混合分布可以被表示为密度函数f,或者分布函数F:
这种类型的混合体称作有限混合(finite mixture)。
当组成的分布式不可数的,这个分布就被称为混合概率分布(compound probability distribution)。这种分布的构造是用积分来代替有限情况下的求和形式。
考虑一个随机变量为x,参数为a的概率密度函数p(x;a)。对于在集合A中的每一个值a,p(x;a)是一个关于x的概率密度函数,给出概率密度函数w(要求w非负且积分为1),则函数:
f(x)就是一个关于x的概率密度函数。
了解Gamma函数的性质和一些有用的计算公式,在后面复杂的分布中会用到这些公式和表示方式。
在概率论和统计学中,学生t-分布(Student‘s t-distribution),可简称为t分布。应用在估计呈正态分布的母群体之平均数。它是对两个样本均值差异进行显著性测试的学生t检定的基础。
其中,ν被称作自由度(degrees of freedom),当ν=1时,该分布退化为柯西分布(Cauchy Distribution);当ν→∞时,该分布为高斯分布。
Student T分布可以看做是正态分布和Gamma分布的混合体,由于是连续分布,所以该混合体表示为积分形式。其公式推导如下,在求解积分时用到了之前Gamma函数中列举的有用的积分公式:
在概率论与统计学中,拉普拉斯分布是以皮埃尔-西蒙·拉普拉斯的名字命名的一种连续概率分布。由于它可以看作是两个不同位置的指数分布背靠背拼接在一起,所以它也叫作双指数分布。两个相互独立同概率分布指数随机变量之间的差别是按照指数分布的随机时间布朗运动,所以它遵循拉普拉斯分布。
如果随机变量的概率密度函数分布为:
那么它就是拉普拉斯分布。其中,μ是位置参数,b>0是尺度参数。
laplace分布可以看成是高斯分布和指数分布的混合体。
负二项分布是统计学上一种离散概率分布。“负二项分布”与“二项分布”的区别在于:“二项分布”是固定试验总次数N的独立试验中,成功次数k的分布;而“负二项分布”是所有到成功r次时即终止的独立试验中,失败次数k的分布。
其概率质量函数为:
Negative Biomial分布可以看做是Gamma分布和泊松分布的混合体。
这里我们列举了三种常见分布及其混合分布,这种混合分布的表示形式的意义在于,复杂分布的期望和方差等数字特征不好求解,但可以将其表示为更加简单的分布的混合形式,我们知道高斯分布、泊松分布等分布的数字特征可以由其参数得到,这样的话,就可以很容易的通过简单的分布得到复杂分布的一些数字特征。
Wiki:Mixture Distribution
LDA-math-神奇的Gamma函数
神奇的伽玛函数(上)
神奇的伽玛函数(下)
转载请注明作者Jason Ding及其出处
Github博客主页(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)
原文地址:http://blog.csdn.net/jasonding1354/article/details/43702125