TF-IDF是一种统计方法,用于评估某个词语对于一个文本集或者一个语料库中的一个文件的重要程度,字词的重要性随着其在文本的出现次数成比例增加,但是又会随着其在语料库中的频率反比率下降,多为搜索引擎应用,作为文件和用户搜索的相关程度的度量和评级。
算法由二部分定义:
TF:词频。一个字词在一个文本中出现的频率。
TF = 某词在文章出现的次数/文章中总词数
但是在文章中出现最多的词语很可能是:“的”,“地”,“是”等词语,但是这样的词语对于文章的关键性没有什么具体的帮助,这样的词语称之为停用词。在文章中需要将停用词进行过滤,才可以进行评估。
经过上述分析,可以简单的知道文本提取关键词是怎么回事,但是对于停用词进行过滤之后,所剩下的词语的词频很可能是相同的:例如“中国”、“足球”、“出现”在经过过滤之后的出现次数是一样的,但是由生活交流可以了解到 ”出现“相对于"中国"、“足球”不是那么的常见,所以可以分析出,“出现”这个词语对于这篇文章的重要性较大,所以需要通过一个衡量权值进行调整,引入IDF。
IDF:逆向文档频率,对于词频赋予权重。对于比较常见的词语赋予较小的权重,而相对应不常见的词语赋予较大的权重,在进行IDF的计算的时候需要一个语料库。
IDF = log(语料库文档总数/(包含该词文档总数)+1)、包含该词文档总数可以为0。
TF-IDF算法:就是将TF值 乘以 IDF值得到一个最终的值,来表述词语对于文档的重要程度。最终的TF-IDF的值越大,说明这个词语对于文章越重要。
原文地址:http://blog.csdn.net/xd_122/article/details/43193673