标签:
一被别人问:你是学什么方向的
我默默回答一句:数据挖掘
别人意味深长の回答一句:哦.......
想必看出了我只是个小白。
既然清楚自己是个小白,开这个博客也只是为了让自己更好的做笔记,并且渴望得到大神的指点,让自己进步更快一些。
So,begin:
数据挖掘嘛,so,统计与概率,矩阵,机器学习,巴拉巴拉巴拉.....
一堆堆看不懂的东西,从接触数据挖掘之后,公式巨多,巨长,巨大,最亲切的也就是贝叶斯公式。
那就先从最简单的开始,概率
首先需要把名词解释清楚:先验概率、后验概率
先验概率是指根据以往经验和分析得到的概率,如全概率公式中的,它往往作为“由因求果”问题中的“因”出现。
后验概率是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的“因” 。
就我自己的理解,先验概率是可以通过已知信息算出来的,而后验概率是通过先验概率修正得出的。而修正先验概率利用的就是贝叶斯公式。
在此都是浅显地留个印象,接下来,咱们搞点数学。
先验概率(Prior probability)
在贝叶斯统计中,先验概率分布,即关于某个变量 p 的概率分布,是在获得某些信息或者依据前,对 p 的不确定性进行猜测。例如, p 可以是抢火车票开始时,抢到某一车次的概率。这是对不确定性(而不是随机性)赋予一个量化的数值的表征,这个量化数值可以是一个参数,或者是一个潜在的变量。
先验概率仅仅依赖于主观上的经验估计,也就是事先根据已有的知识的推断。在应用贝叶斯理论时,通常将先验概率乘以似然函数(likelihoodfunction)再归一化后,得到后验概率分布,后验概率分布即在已知给定的数据后,对不确定性的条件分布。
似然函数(likelihood function)
称作似然,是一个关于统计模型参数的函数。也就是这个函数中自变量是统计模型的参数。对于结果 x ,在参数集合 θ 上的似然,就是在给定这些参数值的基础上,观察到的结果的概率 L(θ|x)=P(x|θ) 。也就是说,似然是关于参数的函数,在参数给定的条件下,对于观察到的 x 的值的条件分布。
后验概率(Posterior probability)
后验概率是关于随机事件或者不确定性断言的条件概率,是在相关证据或者背景给定并纳入考虑之后的条件概率。后验概率分布就是未知量作为随机变量的概率分布,并且是在基于实验或者调查所获得的信息上的条件分布。“后验”在这里意思是,考虑相关事件已经被检视并且能够得到一些信息。
后验概率是关于参数 θ 在给定的证据信息 X 下的概率: p(θ|x) 。若对比后验概率和似然函数,似然函数是在给定参数下的证据信息 X 的概率分布: p(x|θ) 。
二者有如下关系:
我们用 p(θ) 表示概率分布函数(相当于先验概率),用 p(x|θ) 表示观测值 x 的似然函数。后验概率定义如下:
p(θ|x)=p(x|θ)p(θ)/p(x)
在分母不变的情况下,就成了:Posteriorprobability∝Likelihood×Prior probability
接下来用个例子说明问题
一口袋里有3只红球、2只白球,采用不放回方式摸取,求:⑴ 第一次摸到红球(记作A)的概率;⑵ 第二次摸到红球(记作B)的概率;⑶ 已知第二次摸到了红球,求第一次摸到的是红球的概率。
(1)对于这一问,就相当于在计算一个先验概率的问题,P(A) = 3/5
(2)在考虑这个问题时:P(B) = P(AB)+P(A逆B) = P(B/A)P(A)+P(B/A逆)P(A逆) = 2/4 *3/5+3/4*2/5 = 3/5
(3)对于这个问题,也就是求P(A/B) ,这是一个典型的后验概率,P(A/B) = P(AB)/P(B) = P(B/A)*P(A)/P(B) = (2/4*3/5)/(3/5) = 1/2
标签:
原文地址:http://www.cnblogs.com/han1ning1/p/5543119.html