码迷,mamicode.com
首页 > 其他好文 > 详细

朴素贝叶斯分类

时间:2017-09-30 13:12:06      阅读:180      评论:0      收藏:0      [点我收藏+]

标签:算法   strong   es2017   构造   文本   style   解决   问题   测试数据   

朴素贝叶斯分类

1 朴素贝叶斯分类

监督学习可以从概率的角度来认识,分类的任务可以看做是给定一个测试样例后,估计目标出现的条件概率,即后验概率。

首先给出条件概率公式,即:

技术分享

然后给出,贝叶斯定理:

技术分享

朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。

朴素贝叶斯分类的正式定义如下:

1,设技术分享为一个待分类项,而每个a为x的一个特征属性。

2,有类别集合技术分享

3,计算技术分享

4,如果技术分享,则技术分享

朴素贝叶斯分类分为三个阶段:

(1)准备工作阶段准备工作阶段,输入时待分类数据,输出是特征属性和训练样本;

(2)分类训练阶段,输入是特征属性和训练样本,输出是分类器;

(3)应用阶段,输入是分类器和待分类项,输出是分类项与类别的映射关系。

朴素贝叶斯的思想应用于文本分类时,我们只需要计算技术分享即可,我们假设所有属性都是条件独立于类别。即可得到

公式一:

技术分享

公式二:

技术分享

如果仅仅需要总体上最有可能的类别作为所有测试样例做预测,我们只需要公式二的分子即可。所以,我们可以通过下面的公式来对测试样例的类别做预测。

技术分享

构造朴素贝叶斯分类器所需要的概率值技术分享可以经过一次扫描得到,所以算法相对训练样本的数量是线性的,这是朴素贝叶斯分类器的优势之一,效率很高。

为了研究实际可用的分类器,需要解决一些特别的问题:如处理的数值属性、丢失的属性值和估计产生的零概率。

数值的离散化

对连续特征进行离散化处理,一般经过以下步骤:(1)对此特征进行排序。特别是对于大数据集,排序算法的选择要有助于节省时间,提高效率,减少离散化的整个过程的时间开支及复杂度。(2)选择某个点作为候选点,用所选取的具体的离散化方法的尺度来衡量候选选点是否满足要求。(3)若候选点满足离散化的衡量尺度,则对数据集进行分裂或合并,再选择下一个候选点,重复步骤(2)(3)。(4)当离散算法存在停止准则时,如果满足停止准则,则不再进行离散化过程,从而得到最终的离散结果。[2]

丢失的属性值:

丢失的属性值一般可以忽略。

估计产生的零概率:

在一个测试数据中出现属性值可能不在训练数据中出现,则对应的概率即为0,从而导致分类出现错误。一个主要的解决办法便是加入一个小样本叫校正。

技术分享为同时满足技术分享的样本数量,令技术分享为训练数据中技术分享的数据总数,技术分享未校正前的估计是技术分享,校正后的估计是

技术分享

其中技术分享技术分享的类型数目,技术分享是一个引子,一般为1/n(n是训练数据D的总数)。当技术分享=1时,就是著名的Laplace延续率(拉普拉斯延续率)。校正后的公式称为lidstone延续率。

?

参考文献:

[1] http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html

[2] https://wenku.baidu.com/view/264abca16f1aff00bed51ed7.html

朴素贝叶斯分类

标签:算法   strong   es2017   构造   文本   style   解决   问题   测试数据   

原文地址:http://www.cnblogs.com/smuxiaolei/p/7614271.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!