标签:machine learning probability 概率论 beta分布 高斯分布
概率论基本概念
离散变量
概率论中的两个基本法则:加法法则和乘法法则,加法法则定义了随机变量X与条件变量Y之间的直接联系。乘法法则定义了概率学中最重要的条件概率,同时也可以叫做联合概率,因为它描述了事件X和Y同时发生的概率。
通过上面公式可以推到出条件概率公式:
进而可以得到著名的贝叶斯公式,贝叶斯公式广泛的应用于科学界,这也被称为后验概率,因为它在咱们知道了p(Y=y)这个先验概率之后才能计算出来。
如果两个随机变量x,y满足以下公式,那么说明他们是互相独立的:
如果三个随机变量x,y,z满足以下公式,那么说明x与y是条件独立的:
连续随机变量
对于连续随机变量X落在区间(a,b)的概率为:
连续随机变量也具有以下性质,概率非负性,以及随机变量在所有范围内发生的概率为1.
以下是连续型随机变量的CDF(cumulative distribution function ),表示了在随机变量x属于区间a到b的概率。
期望和方差
对于离散型随机变量,其期望就相当于各个随机变量的加权平均,而权值就是各个随机变量的概率:
对于连续型随机变量,和离散型随机变量类似,只是累加符号改为了积分:
方差衡量的是整个随机变量的离散度,越大代表随机变量的取值范围越宽。
协方差可以用来衡量两个随机变量之间的关系,是相关系数的重要组成部分:
离散随机分布
伯努利分布 Bernoulli distribution
伯努利分布是最简单的二元分布,随机变量取值0或者1,其分布表达如下:
当x=1的时候,其概率为μ, 当x=0的时候,概率为1-μ。
伯努利分布的期望和方差如下:
二项分布 binomial distribution
二项分布,表示的是做n次试验,其中每次发生的概率为theta,用于计算n次中发生k次的概率。其中:
上公式表示的常用的组合公式,n次中取k次,二项分布的平均值和方差是:
多项分布 multinomial distribution
二项分布可以很好的来模拟连续掷一个双面色子的结果分布,但是如果咱们手里有个多面色子怎么搞呢?多项式分布帮了我们的忙:
表示的是n次试验中,每一面分别发生了m1,m2 .......mk次。
特别的当n=1,就是之前伯努利分布的延伸:
泊松分布 Poisson distribution
泊松分布表示为以下形式,它常常用来模拟一些较少发生的事情:
连续随机分布
高斯分布(正态分布)
正态分布是自然界最伟大也是最漂亮的分布,其表达式如下:
其cdf如下:
它的平均值如下:
方差是:
以下是一个正态分布的示例图:
当高斯分布中的方差变得很小,趋近于0时,在均值附近,曲线会变得异常陡峭。其中
δ叫做Dirac delta function, 可以很好的来表示当高斯分布中方差很小的情况。
student T 分布
高斯分布有一个明显的问题就是对异常点较为敏感,如下图,红色的曲线是真正的分布曲线,蓝色密虚线是高斯分布,我们可以看到右图,高斯分布由于异常点的影响偏离正常分布较大,而我们可以用另外一种分布,T分布来更好的模拟异常点存在的情况:
T分布表达如下:
μ表示的整个分布的均值,v是自由度 degrees offreedom 。
t分布有以下性质:
特别的,当v=1时,该分布也被称作:Cauchy 或者 Lorentz 分布
使用时候需注意通常我们需要v>2,当v=4的时候可以很好的模拟一些分布,但是当v>>5之后会更加趋近于正态分布,从而失去的稳健性。
除了T分布,拉普拉斯分布也有很长的尾巴,它表达式如下:
它又以下性质,同时它也对异常点有很好的忍耐力,在0点比高斯分布有更高的概率。
其中:
伽马分布有以下性质:
以下是一些伽马分布的实例:
beta分布的表达式如下:
以下是beta函数的一些实例:
它的性质如下:
帕累托原理想必都听过吧,就是著名的长尾理论,帕累托分布表达式如下:
下面是一些实例:左图表现了不同参数配置下的帕累托分布
一些性质如下:
reference
PRML
MLAP
版权声明:本文为博主原创文章,未经博主允许不得转载。
CS281: Advanced Machine Learning 第二节 probability theory 概率论
标签:machine learning probability 概率论 beta分布 高斯分布
原文地址:http://blog.csdn.net/frog_in_a_well/article/details/47132497