首页 > 其他好文 > 详细

朴素贝叶斯（Naive Bayes）

时间：2014-10-08 01:25:54 阅读：385 评论：0 收藏：0 [点我收藏+]

标签：style blog http io strong sp 2014 问题 c

考虑用机器学习建立一个邮件过滤系统，来将邮件分成垃圾邮件和非垃圾邮件。

首先我们建立一个词典，里面包含了邮件中所有的不重复单词。我们用长度为词典中单词数目的特征向量来表示一封邮件。如下所示：

表示一封邮件，如果该邮件包含有词典中的第i个单词，那么，否则.

为了建模，作一个很强的假设，假设词典中的每个单词是否包含在某一封邮件中是彼此独立的，这个假设其实显然不正确（一封垃圾邮件出现了“发票”字样，往往就会出现“贷款等字样”），但是这种“错误（Naive）”假设在应用中却有着不俗的表现，所以今天才有学习讨论的意义。这种假设就被称为朴素贝叶斯假设（Naive Bayes (NB) assumption），因之而生的算法就是朴素贝叶斯分类器（Naive Bayes classifier）.

假设词典中有50000个单词，在朴素贝叶斯假设下：

模型的参数：

Φ_i|y=1 = p(x_i = 1|y = 1), Φ_i|y=0 = p(x_i =1|y = 0), Φ_y = p(y = 1).

对于给定的训练集{x⁽ⁱ⁾,^y(i);i=1, 2, ..., m},得到如下联合似然函数：

参数的最大似然估计为：

“∧”是表示“与”运算。

拟合出这些参数之后，我们可以对新邮件进行预测：

自然p(y=0|x)=1-p(y=1|x),

比较属于两个类别的概率哪一个高，选出较高的概率对应的类别就是最终预测的类别。

拉普拉斯平滑（Laplace smoothing）

假如你第一次向NIPS（机器学习领域的顶级会议）投稿，于是在你的这封邮件中就会出现单词“nips”,假设“nips”是词典中的第35000个单词，那么根据上述分类器，

参数的最大似然估计就会如下：

因为在之前的邮件中nips从来都没有出现过，所以在任何一种类型的邮件（垃圾邮件或者非垃圾邮件）中，第35000个单词出现的概率都是0.

因此，当系统试图预测一封邮件包含“nips”是否是垃圾邮件的时候，按照上面说的方法：

这是因为中包含有p(x₃₅₀₀₀|y) =0. 下面好好分析产生这种现象的原因。

统计中一种不恰当的现象：把之前从未发生的事件发生的概率估计为0.例如，给定m个独立事件集合，最大似然估计如下：

正如前面叙述的一样，假若某几个事件之前从未发生过，根据上面的式子，这就会导致一些为0，这就是问题所在。为了避免这个问题，我们采用

拉普拉斯平滑（Laplace smoothing），把上面的式子调整为：

对于这个等式仍然满足.但是再也不会出现为0的现象了.

返回到朴素贝叶斯分类器，通过拉普拉斯平滑，可以得到参数的估计如下：

朴素贝叶斯（Naive Bayes）

标签：style blog http io strong sp 2014 问题 c

原文地址：http://www.cnblogs.com/90zeng/p/naive_bayes.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！