码迷,mamicode.com
首页 > 其他好文 > 详细

朴素贝叶斯

时间:2014-12-19 18:47:07      阅读:232      评论:0      收藏:0      [点我收藏+]

标签:

一、数学基础

1、先验概率,又称边缘概率:

2、后验概率,又称条件概率

条件概率(非独立事件才会遇到条件概率)
P(A,B)=P(A)*P(B|A)
例:五个乒乓球,3新2旧,无放回抽取两次,A:第一次取到新球 B:第二次取到新球,求第一次取到新球的条件下第二次取到新球的概率
P(B|A)=P(A,B)/P(A)
P(A)=3/5
P(B)=3/5*2/4+2/5*3/4=12/20
P(A,B)=3/5*2/4=6/20   A发生的概率*在A已发生的情况下B能发生的概率(目前的状态是没有认定A会发生,所以必须先求出A发生的概率
P(B|A)=(6/20)/(3/5)=1/2  目前的状态是认定A已发生,B能发生的概率(即,第一次已经抽到新球了,那么第二次抽到的概率是多少呢?就是2/4,剩余四个,2个是新的)

3、贝叶斯公式:技术分享

二、朴素贝叶斯

1、为什么称为朴素?

    朴素贝叶斯分类法假设各个特征是相互独立互不影响的,即类条件独立性

2、朴素贝叶斯算法?

    设D为数据集;每条数据有n个特征,A表示特征向量,X表示特征值向量;有m个分类,用C表示

    对于一条给定的数据,分别求取p(C1|X) 、p(C2|X)......p(Cm|X),最大的p(Ci|X)即为这条数据的分类

3、如果求最大的p(Ci|X)?

技术分享

(1)P(X)作为先验概率,与P(C)无关,对所有类为常数,所以不需考虑

(2)P(Ci) =|Di|/|D|   可以用Ci类的个数/训练数据集总数求得

(3)P(X|Ci)  根据最初的假设,即类条件独立性,可得

      技术分享   

     P(xi|Ci):Ci类中Ai特征取值为xi 的个数/Ci类的个数(注意:因为我们考虑的是分类,所以属性A的值是非连续的,对于非连续的情况暂不考虑)

(4)求得最大的那个p(Ci|X),Ci即为该条数据对应的分类

四、贝叶斯网络(待续)

五、隐马尔科夫模型(待续)

贝叶斯估计与极大似然估计

朴素贝叶斯

标签:

原文地址:http://www.cnblogs.com/naonaoling/p/4174494.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!