码迷,mamicode.com
首页 > 其他好文 > 详细

关于TF-IDF的解释

时间:2018-10-30 17:45:07      阅读:185      评论:0      收藏:0      [点我收藏+]

标签:解释   term   词条   ocm   idf   dex   很多   log   bsp   

TF:term frequency ,词频 。指的是 term 出现的评率。在 一般来说次出现几次 词频 就是 几。但是如果这个词出现次数很少,但是 这个index 的 文档很多。这时候就不合理了。

所以  一般 TF = 词条在文档出现的次数 / 文档总词数。

IDF:倒排索引的频率。 log (   docment 数量/ (出现这个词条的 文档数 +1) ), IDF 描述的是 某个词在 倒排索引中的频率,说白了就是描述这词条在 倒排 所占的权重(相对所有词的权重)。这个权重乘 TF 就是这个 docment 的评分。

 

备注:term,在 而是 里面你是一个  不分词的 最小词条。

关于TF-IDF的解释

标签:解释   term   词条   ocm   idf   dex   很多   log   bsp   

原文地址:https://www.cnblogs.com/cxygg/p/9876853.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!