关键字提取算法TF-IDF

时间：2016-11-05 17:32:41 阅读：185 评论：0 收藏：0 [点我收藏+]

标签：集中频率文本分类文件 margin 索引它的倒数过程

在文本分类的学习过程中，在“如何衡量一个关键字在文章中的重要性”的问题上，遇到了困难。在网上找了很多资料，大多数都提到了这个算法，就是今天要讲的TF-IDF。

总起

　　TF-IDF，听起来很高大上啊，其实理解起来相当简单，他实际上就是TF*IDF，两个计算值的乘积，用来衡量一个词库中的词对每一篇文档的重要程度。下面我们分开来讲这两个值，TF和IDF。

　　TF，是Term Frequency的缩写，就是某个关键字出现的频率，具体来讲，就是词库中的某个词在当前文章中出现的频率。那么我们可以写出它的计算公式：

　　技术分享

　　其中：

　　　　TF(i,j)：关键词j在文档i中的出现频率。

　　　　n(i,j)：关键词j在文档i中出现的次数。

　　比如，一篇文章一共100个词汇，其中“机器学习”一共出现10次，那么他的TF就是10/100=0.1。

　　这么看来好像仅仅是一个TF就能用来评估一个关键词的重要性（出现频率越高就越重要），其实不然，单纯使用TF来评估关键词的重要性忽略了常用词的干扰。常用词就是指那些文章中大量用到的，但是不能反映文章性质的那种词，比如：因为、所以、因此等等的连词，在英文文章里就体现为and、the、of等等的词。这些词往往拥有较高的TF，所以仅仅使用TF来考察一个词的关键性，是不够的。这里我们要引出IDF，来帮助我们解决这个问题。

IDF

　　IDF，英文全称：Inverse Document Frequency，即“反文档频率”。先看什么是文档频率，文档频率DF就是一个词在整个文库词典中出现的频率，就拿上一个例子来讲：一个文件集中有100篇文章，共有10篇文章包含“机器学习”这个词，那么它的文档频率就是10/100=0.1，反文档频率IDF就是这个值的倒数，即10。因此得出它的计算公式:

技术分享

其中：

　　IDF(i)：词语i的反文档频率

　　|D|：语料库中的文件总数

　　|j:t(i)属于d(j)|出现词语i的文档总数

　　+1是为了防止分母变0。

　　于是这个TF*IDF就能用来评估一个词语的重要性。

　　还是用上面这个例子，我们来看看IDF是怎么消去常用词的干扰的。假设100篇文档有10000个词，研究某篇500词文章，“机器学习”出现了20次，“而且”出现了20次，那么他们的TF都是20/500=0.04。再来看IDF，对于语料库的100篇文章，每篇都出现了“而且”，因此它的IDF就是log1=0,他的TF*IDF=0。而“机器学习”出现了10篇，那么它的IDF就是log10=1,他的TF*IDF=0.04>0，显然“机器学习”比“而且”更加重要。

总结

　　这算法看似简单，实际上在SEO搜索引擎优化啊，文本分类方面用的挺多的，面试时也常常作为信息论知识储备来出题。

关键字提取算法TF-IDF

标签：集中频率文本分类文件 margin 索引它的倒数过程

原文地址：http://www.cnblogs.com/HolyShine/p/6033368.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行