码迷,mamicode.com
首页 > 其他好文 > 详细

TF-IDF原理及使用

时间:2018-11-02 01:43:07      阅读:172      评论:0      收藏:0      [点我收藏+]

标签:公式   csdn   sci   term   details   learn   inverse   log   出现   

1、TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).(逆文档词频)

2、自我理解:

  公式TF = $$\frac{语料库中关键词出现的次数}{总词数量}$$    ##权重w  (词频)

 

     或者

              TF =  $$\frac{某个词在文章中出现的次数}{文章中出现词最多的次数}$$

 

      IDF = $$log\frac{文档总数}{某个文件(文档)关键词出现的次数+1}$$           ##文档总数。多个文件

 

     TF-IDF = TF * IDF     #词频-逆文档词频   词频 * 逆文档词频

3、通常算法实现的步骤:

  1)、分词

  2)、文件数

 

 

3、python 算法实现:jieba

 

4、hanlp实现

 

5、nltk的实现

 

6、Scikit-Learn的实现

 

 

4、应用场景:

原理: https://blog.csdn.net/zrc199021/article/details/53728499

TF-IDF原理及使用

标签:公式   csdn   sci   term   details   learn   inverse   log   出现   

原文地址:https://www.cnblogs.com/cbugs/p/9893256.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!