参考:http://www.cnblogs.com/ywl925/p/3275878.html这个模型主要用于信息检索,但它的思想用于图像也未尝不可。TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类...
分类:
其他好文 时间:
2015-05-18 16:00:33
阅读次数:
110
1.词频 TF(term frequency)词频,就是该分词在该文档中出现的频率,算法是:(该分词在该文档出现的次数)/(该文档分词的总数),这个值越大表示这个词越重要,即权重就越大。例如:一篇文档分词后,总共有500个分词,而分词”Hello”出现的次数是20次,则TF值是: tf =20/.....
分类:
其他好文 时间:
2015-05-09 20:15:03
阅读次数:
136
数学之美之TF-IDF算法
By 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢。
吴军博士在《数学之美》一书中提到如何使用TF-IDF算法进行确定网页和查询的相关性判断。我在这里给出自己学习的笔记。
相关名称:
TF-IDF(term frequency–inversedocum...
分类:
编程语言 时间:
2015-05-08 20:23:36
阅读次数:
373
有这样一道题,要求使用纯mysql实现一个TF-IDF算法。原始的输入是一个有articles表,有100列,每列存储一个单词。其实核心难点就是怎么遍历对比这100个词和指定词比如'apple'进行对比。首先蛮力穷举所有的列名,如word1 、word2。。。但是这样做代码肯定丑的不像样,而且如果是...
分类:
数据库 时间:
2015-05-04 21:53:48
阅读次数:
173
请参看TF-IDF与余弦相似性的应用(一):自动提取关键词http://www.ruanyifeng.com/blog/2013/03/tf-idf.htmlTF-IDF与余弦相似性的应用(二):找出相似文章http://www.ruanyifeng.com/blog/2013/03/cosine_...
分类:
编程语言 时间:
2015-04-13 10:52:02
阅读次数:
213
Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被称为向量空间模型,名字听起来很复杂,但是它其实只包含了两个简单规则某个词或短语在一篇文章中出现的次数越多,越相关整个文档集合中包含某...
分类:
Web程序 时间:
2015-04-08 17:58:42
阅读次数:
134
1. 使用函数df(field,keyword) 和idf(field,keyword).http://118.85.207.11:11100/solr/mobile/select?q={!func}product%28idf%28title,%E9%97%AE%E9%A2%98%29,tf%28t...
分类:
其他好文 时间:
2015-03-31 19:57:55
阅读次数:
214
运用mapreduce计算文档中每个单词的tfidf值...
分类:
其他好文 时间:
2015-03-19 14:51:32
阅读次数:
205
本文翻译自Elasticsearch官方指南的Proximity Matching一章。邻近匹配(Proximity Matching)使用了TF/IDF的标准全文搜索将文档,或者至少文档中的每一个字段,视作"一大袋的单词"(Big bag of Words)。match查询可以告诉我们这个袋子中是...
分类:
其他好文 时间:
2015-03-04 22:40:27
阅读次数:
183
类似的算法已经被写成了工具,比如基于Java的Classifier4J库的SimpleSummariser模块、基于C语言的OTS库、以及基于classifier4J的C#实现和python实现。
分类:
其他好文 时间:
2015-02-07 06:48:27
阅读次数:
196