码迷,mamicode.com
首页 > 其他好文 > 详细

朴素贝叶斯分类

时间:2015-11-08 14:36:43      阅读:263      评论:0      收藏:0      [点我收藏+]

标签:

贝叶斯定理:

技术分享

X是已知条件,H是假设。映射到文本分类中,X就是给定的测试文档,H是文档属于的类别。

 

朴素贝叶斯分类:

即求出所有类的P(Ci|X),概率最大的类为预测类。

因为P(X)是一样的,只需求P(X|C)P(C)即可。

(1)P(Ci)=Ci类文档数/训练文档集总文档数

(2)P(X|Ci)不好求,因此需要“朴素”的假设:类条件独立,即属性值相互独立,则

P(X|Ci)=P(x1|Ci)P(x2|Ci)...P(xn|Ci)   xi为文档的各个属性,即特征词

<1>把x当离散型属性,即只有包含/不包含两种情况,则P(xk|Ci)=(Ci类中包含特征词xk的文本数+1)/Ci类总文本数

<2>记得使用经典TF-IDF公式可以对每个文档内的特征词计算其权重,这时候x就是连续值属性了。

对于连续值属性,一般假定服从均值μ,标准差σ的高斯分布

技术分享

因此P(xk|Ci)=g(xkCiCi)

看上去很复杂,其实μCi是Ci类内特征词t的权值的均值,σCi是标准差

对于一个测试文档,使用TF-IDF计算特征词权值,即得到xk,三个参数一起代入公式可得P(xk|Ci)

 

求得每个类P(X|Ci)后,P最大的类为预测类。

 

朴素贝叶斯分类

标签:

原文地址:http://www.cnblogs.com/IvanSSSS/p/4946983.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!