分类（一）：朴素贝叶斯文本分类

时间：2015-10-22 01:41:48 阅读：227 评论：0 收藏：0 [点我收藏+]

标签：

为了处理这种维数过高的情况，我们做一个假设：X的每一维特征之间都是独立的。这也就是朴素贝叶斯假设。

根据独立分布的条件，我们就能够容易地写出P（d|C），如下：

P(d/C) = ∏ P(ti / C)

d代表文档，ti代表文档中的每个词，C代表类。

朴素贝叶斯分类器是一种有监督学习，常见有两种模型，多项式模型(multinomial model)和伯努利模型(Bernoulli model)。

先验概率在《信息检索导论》里面都是以类c下的文档数占比来衡量，而有些博客则以下面两种形式区分对待。

在多项式模型中，设某文档d=(t1,t2,…,tk)，tk是该文档中出现过的单词，允许重复，则：

先验概率P(c)= 类c下单词总数/整个训练样本的单词总数。
类条件概率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1)/(类c下单词总数+|V|)。V是训练样本的单词表（即抽取单词，单词出现多次，只算一个），|V|则表示训练样本包含多少种单词。

P(tk|c)可以看作是单词tk在证明d属于类c上提供了多大的证据，而P(c)则可以认为是类别c在整体上占多大比例(有多大可能性)。

P(c)= 类c下文件总数/整个训练样本的文件总数

P(tk|c)=(类c下包含单词tk的文件数+1)/(类c下单词总数+2)

二者的计算粒度不一样，多项式模型以单词为粒度，伯努利模型以文件为粒度，因此二者的先验概率和类条件概率的计算方法都不同。

标签：

原文地址：http://my.oschina.net/u/1020238/blog/520155

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行