标签:
本文主要描述了朴素贝叶斯分类方法,包括模型导出和学习描述。实例部分总结了《machine learning in action》一书中展示的一个该方法用于句子感情色彩分类的程序。1
根据贝叶斯定理,对一个分类问题,给定样本特征x,样本属于类别y的概率是
下面介绍如何从数据中,学习得到朴素贝叶斯分类模型。概述分类方法,并提出一个值得注意的问题。
学习 1.首先,我们来计算公式(2)中的
p(y=ck)
p(y=ck)=∑Ni=1I(yi=ck)N。。。。(3)
其中I(x) 为指示函数,若括号内成立,则计1,否则为0。
学习 2.接下来计算分子中的条件概率,设
M 维特征的第j 维有L 个取值,则某维特征的某个取值ajl ,在给定某分类ck 下的条件概率为:
p(xj=ajl|y=ck)=∑Ni=1I(xji=ajl,yi=ck)∑Ni=1I(yi=ck)。。。(4)
经过上述步骤,我们就得到了模型的基本概率,也就完成了学习的任务。
分类 1.计算该实例属于y=ck 类的概率
p(y=ck|X)=p(y=ck)∏j=1np(X(j)=x(j)|y=ck)。。。(5)
分类 2.确定该实例所属的分类y
y=argmaxckp(y=ck|X)。。。。(6)
于是我们得到了新实例的分类结果
p(y=ck)=∑Ni=1I(yi=ck)+λN+Kλ。。。。(7)
K 是类的个数
p(xj=ajl|y=ck)=∑Ni=1I(xji=ajl,yi=ck)+λ∑Ni=1I(yi=ck)+Ljλ。。。(8)
Lj 是第j 维特征的最大取值
可以证明,改进以后的(7)(8)仍然是概率。平滑因子
根据上面的算法流程,在这里实现一个句子极性划分的例子。所谓句子极性是指,句子所表达的情感色彩,例如积极/消极,这里(书里)使用的是侮辱性/非侮辱性。其实是什么类别不重要,只要给定有标签的训练数据,就可以得到分类模型。
下面简述实现思想和流程,给出代码。
初始化步,构建可以表征句子的特征向量(词汇表)。并根据这个特征向量,把训练集表征出来。从训练集中分离部分数据作为测试集。
学习步,计算类的先验概率和特征向量对应每一类的条件概率向量
分类步, 计算测试集中待分类句子在每一类的分类后验概率,取最大值作为其分类,并与给定标签比较,得到误分类率。
标签:
原文地址:http://blog.csdn.net/jim_cainiaoxiaolang/article/details/51932646