Naive Bayes for Text Classification

时间：2016-06-02 11:24:14 阅读：194 评论：0 收藏：0 [点我收藏+]

标签：

TF-IDF Algorithm

　　From http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

Chapter 1, 知道了"词频"（TF）和"逆文档频率"（IDF）以后，将这两个值相乘，就得到了一个词的TF-IDF值。某个词对文章的重要性越高，它的TF-IDF值就越大。

(1) 出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词。它们叫做"停用词"（stop words），表示对找到结果毫无帮助、必须过滤掉的词。

(2) 我们需要一个重要性调整系数，衡量一个词是不是常见词。如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。

(3) 在词频的基础上，要对每个词分配一个"重要性"权重。

最常见的词（"的"、"是"、"在"）给予最小的权重，
较常见的词（"中国"）给予较小的权重，
较少见的词（"蜜蜂"、"养殖"）给予较大的权重。

这个权重叫做"逆文档频率"（Inverse Document Frequency，缩写为IDF），它的大小与一个词的常见程度成反比。

Chapter 2, steps

Step 1，计算词频。

技术分享

考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化。

技术分享

或者

技术分享

Step 2，计算逆文档频率。

这时，需要一个语料库（corpus），用来模拟语言的使用环境。

技术分享 log(Amount_in_each_class <constant> / (number of files with the word + 1) )

如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0（即所有文档都不包含该词）。log表示对得到的值取对数。

Step 3，计算TF-IDF。

技术分享

可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

优点是简单快速，结果比较符合实际情况。

缺点是，单纯以"词频"衡量一个词的重要性，不够全面，

重要的词可能出现次数并不多。
这种算法无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，这是不正确的。可以对全文的第一段和每一段的第一句话，给予较大的权重。

余弦相似性

　　From http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

先从简单的句子着手。

　　句子A：我喜欢看电视，不喜欢看电影。

　　句子B：我不喜欢看电视，也不喜欢看电影。

基本思路是：如果这两句话的用词越相似，它们的内容就应该越相似。因此，可以从词频入手，计算它们的相似程度。

Step 1，分词。

　　句子A：我/喜欢/看/电视，不/喜欢/看/电影。

　　句子B：我/不/喜欢/看/电视，也/不/喜欢/看/电影。

Step 2，列出所有的词。

　　我，喜欢，看，电视，电影，不，也。

Step 3，计算词频。

　　句子A：我 1，喜欢 2，看 2，电视 1，电影 1，不 1，也 0。

　　句子B：我 1，喜欢 2，看 2，电视 1，电影 1，不 2，也 1。

Step 4，写出词频向量。

　　句子A：[1, 2, 2, 1, 1, 1, 0]

　　句子B：[1, 2, 2, 1, 1, 2, 1]

到这里，问题就变成了如何计算这两个向量的相似程度。

两条线段之间形成一个夹角，我们可以通过夹角的大小，来判断向量的相似程度。夹角越小，就代表越相似。

如果夹角为0度，意味着方向相同、线段重合；
如果夹角为90度，意味着形成直角，方向完全不相似；
如果夹角为180度，意味着方向正好相反。// impossible

以二维空间为例，上图的a和b是两个向量，我们要计算它们的夹角θ。余弦定理告诉我们，可以用下面的公式求得：

　　技术分享　

假定a向量是[x1, y1]，b向量是[x2, y2]，那么可以将余弦定理改写成下面的形式：

　　技术分享

数学家已经证明，余弦的这种计算方法对n维向量也成立。假定A和B是两个n维向量，A是 [A1, A2, ..., An] ，B是 [B1, B2, ..., Bn] ，则A与B的夹角θ的余弦等于：

　　技术分享

使用这个公式，我们就可以得到，句子A与句子B的夹角的余弦。

　　技术分享

余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这就叫"余弦相似性"。所以，上面的句子A和句子B是很相似的，事实上它们的夹角大约为20.3度。

由此，我们就得到了"找出相似文章"的一种算法：

　　（1）使用TF-IDF算法，找出两篇文章的关键词；

　　（2）每篇文章各取出若干个关键词（比如20个），合并成一个集合，计算每篇文章对于这个集合中的词的词频（为了避免文章长度的差异，可以使用相对词频）；

　　（3）生成两篇文章各自的词频向量；

　　（4）计算两个向量的余弦相似度，值越大就表示越相似。

"余弦相似度"是一种非常有用的算法，只要是计算两个向量的相似程度，都可以采用它。

Multinomial Naive Bayes

　　from http://blog.csdn.net/ehomeshasha/article/details/35988111

Naive Bayes for Text Classification

标签：

原文地址：http://www.cnblogs.com/jesse123/p/5552014.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行