码迷,mamicode.com
首页 > 其他好文 > 详细

机器学习中有关概率论知识的小结

时间:2014-11-01 21:41:26      阅读:190      评论:0      收藏:0      [点我收藏+]

标签:style   blog   http   io   color   os   ar   sp   strong   

一、引言

最近写了许多关于机器学习的学习笔记,里面经常涉及概率论的知识,这里对所有概率论知识做一个总结和复习,方便自己查阅,与广大博友共享,所谓磨刀不误砍柴工,希望博友们在这篇博文的帮助下,阅读机器学习的相关文献时能够更加得心应手!这里只对本人觉得经常用到的概率论知识点做一次小结,主要是基本概念,因为机器学习中涉及概率论的地方,往往知道基本概念就不难理解,后面会不定期更新,希望博友们多留言补充。

二、贝叶斯(Bayes)公式

通常把事件 A 的概率 P(A)叫做实验前的假设概率,即先验概率(prior probability),如果有另一个事件 B 与事件 A 有某种关系,即事件 A 和 B 不是互相独立的,那么当事件 B 确实发生之后,则应当重新估计事件 A 的概率,即 P(A | B), 这叫做条件概率或者试验后的假设概率,即后验概率(posterior probability).

公式一:bubuko.com,布布扣

再引入全概率公式:设事件A当前仅当互不相容的事件(即任意两个事件不可能同时发生的)bubuko.com,布布扣(i = 1, 2 , ... n) 中的任意一个事件发生时才可能发生,已知事件 bubuko.com,布布扣 的概率 bubuko.com,布布扣 及事件 A 在 bubuko.com,布布扣 已发生的条件下的条件概率,则事件 A 发生的概率为:

bubuko.com,布布扣

这就是全概率公式.

根据概率乘法定理:

bubuko.com,布布扣

我们可以得到:

bubuko.com,布布扣

于是:

bubuko.com,布布扣

再根据上面介绍的全概率公式,则可得到传说中的贝叶斯公式

bubuko.com,布布扣

这些公式定理几乎贯穿整个机器学习,很基本,也很重要!

三、常用的离散随见变量分布

  1. “0-1”分布": 设随机变量 X 只能取得两个数值:0与1,而概率函数是:bubuko.com,布布扣 通常把这种分布叫做“0-1”分布或者两点分布,bubuko.com,布布扣是分布参数.
  2. 二项分布(binomial distribution): 设随机变量 X 可能的的值是0, 1, 2, ..., n, 而概率函数是:

bubuko.com,布布扣

其中bubuko.com,布布扣,这种分布叫做二项分布,含有两个参数 bubuko.com,布布扣 和 bubuko.com,布布扣,通常把这种分布记作bubuko.com,布布扣,如果随见变量 X 服从二项分布bubuko.com,布布扣,记作bubuko.com,布布扣

  3.  泊松(Possion)分布: 设随机变量 X 的可能值是一切非负整数,而概率函数是:

bubuko.com,布布扣

    其中λ > 0 为常数,这种分布叫做泊松分布。泊松分布就含有一个参数λ ,记作P(λ), 如果随机变量 X 服从泊松分布,则记作X~P(λ)

四、随机变量的分布函数

x 是任何实数,考虑随机变量 X 取得的值不大于  x 的概率,即事件 X ≤   x  概率,记作 F(x) = P(X ≤ x), 这个函数叫做随机变量 X概率分布函数或者分布函数,注意区别于上面讲到的概率函数.

如果已知随机变量 X 的分布函数 F(X), 则随见变量 X 落在半开区间 (x1, x2] 内的概率:P(x1 < X ≤ x2) = F(x2) - F(x1)

五、连续随机变量的概率密度

连续随机变量的概率密度就是分布函数的导函数

六、随机变量的数学期望

如果随机变量 X 只能取得有限个值:

bubuko.com,布布扣

而取得有限个值得概率分别是:

bubuko.com,布布扣

 

则数学期望:

bubuko.com,布布扣

 

 

如果连续随机变量 X 的概率密度为bubuko.com,布布扣,则连续随机变量的数学期望:

bubuko.com,布布扣

一个常数的的数学期望等于这个常数本身。

定理:两个独立随机变量的乘积的数学期望等于它们数学期望的乘积。证明如下:

对于离散随机变量 XY 独立:

bubuko.com,布布扣

对于连续随机变量 Y 独立:

bubuko.com,布布扣

七、方差与标准差

随机变量 X 的方差记作 D(X),定义为:

bubuko.com,布布扣

下面证明一个很有用的公式(会用到性质:一个常数的的数学期望等于这个常数本身):

bubuko.com,布布扣

简而言之:随机变量的方差等于变量平方的期望减去期望的平方.

标准差就是方差的算术平方根。

常数的方差为0.

 

八、协方差与相关系数

随机变量 X 与 随机变量 Y 的协方差记作:bubuko.com,布布扣

进一步推导可得:

bubuko.com,布布扣

因为两个独立随机变量乘积的期望等于两个随机变量各自期望的乘积,于是当两个随机变量独立使,很容易得到它们的协方差为0.

两个随机变量 X Y 的 相关系数为:

bubuko.com,布布扣

两个随机变量的相关系数的绝对值不大于1.

当且仅当随机变量 Y之间存在线性关系:

bubuko.com,布布扣

时,相关系数bubuko.com,布布扣的绝对值等于1,并且

bubuko.com,布布扣

九、正态分布

正态分布又叫高斯分布,设连续随机变量 X 的概率密度

bubuko.com,布布扣

其中 μ 及 σ>0 都是常数,这种分布就是正态分布.

正态分布含有两个参数 μ 及 σ>0,其中μ等于正态分布的数学期望,而 σ 等于正态分布的标准差,通常把这种分布记作bubuko.com,布布扣,随机变量 X 服从正态分布bubuko.com,布布扣,则记为:

bubuko.com,布布扣

定理 设随机变量 X 服从正态分布bubuko.com,布布扣,则 X 的线性函数 Y= a + bX(b≠0)也服从正态分布,且有

bubuko.com,布布扣

 

先总结这么多,以后遇到重要的概率论知识点会继续补充!

机器学习中有关概率论知识的小结

标签:style   blog   http   io   color   os   ar   sp   strong   

原文地址:http://www.cnblogs.com/90zeng/p/probability_theory_summary.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!