码迷,mamicode.com
首页 >  
搜索关键字:tf-idf    ( 251个结果
TF-IDF
参考:http://www.cnblogs.com/ywl925/p/3275878.html这个模型主要用于信息检索,但它的思想用于图像也未尝不可。TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类...
分类:其他好文   时间:2015-05-18 16:00:33    阅读次数:110
初学Hadoop之计算TF-IDF值
1.词频 TF(term frequency)词频,就是该分词在该文档中出现的频率,算法是:(该分词在该文档出现的次数)/(该文档分词的总数),这个值越大表示这个词越重要,即权重就越大。例如:一篇文档分词后,总共有500个分词,而分词”Hello”出现的次数是20次,则TF值是: tf =20/.....
分类:其他好文   时间:2015-05-09 20:15:03    阅读次数:136
数学之美之TF-IDF算法
数学之美之TF-IDF算法 By 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢。 吴军博士在《数学之美》一书中提到如何使用TF-IDF算法进行确定网页和查询的相关性判断。我在这里给出自己学习的笔记。 相关名称: TF-IDF(term frequency–inversedocum...
分类:编程语言   时间:2015-05-08 20:23:36    阅读次数:373
mysql 实现TF-IDF 遍历不定个数的列
有这样一道题,要求使用纯mysql实现一个TF-IDF算法。原始的输入是一个有articles表,有100列,每列存储一个单词。其实核心难点就是怎么遍历对比这100个词和指定词比如'apple'进行对比。首先蛮力穷举所有的列名,如word1 、word2。。。但是这样做代码肯定丑的不像样,而且如果是...
分类:数据库   时间:2015-05-04 21:53:48    阅读次数:173
[笔记] TD-IDF算法 用于提取文章关键词
请参看TF-IDF与余弦相似性的应用(一):自动提取关键词http://www.ruanyifeng.com/blog/2013/03/tf-idf.htmlTF-IDF与余弦相似性的应用(二):找出相似文章http://www.ruanyifeng.com/blog/2013/03/cosine_...
分类:编程语言   时间:2015-04-13 10:52:02    阅读次数:213
Lucene TF-IDF 相关性算分公式(转)
Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被称为向量空间模型,名字听起来很复杂,但是它其实只包含了两个简单规则某个词或短语在一篇文章中出现的次数越多,越相关整个文档集合中包含某...
分类:Web程序   时间:2015-04-08 17:58:42    阅读次数:134
使用solr的函数查询,并获取tf*idf值
1. 使用函数df(field,keyword) 和idf(field,keyword).http://118.85.207.11:11100/solr/mobile/select?q={!func}product%28idf%28title,%E9%97%AE%E9%A2%98%29,tf%28t...
分类:其他好文   时间:2015-03-31 19:57:55    阅读次数:214
运用mapreduce计算tf-idf
运用mapreduce计算文档中每个单词的tfidf值...
分类:其他好文   时间:2015-03-19 14:51:32    阅读次数:205
[Elasticsearch] 邻近匹配 (一) - 短语匹配以及slop參数
本文翻译自Elasticsearch官方指南的Proximity Matching一章。邻近匹配(Proximity Matching)使用了TF/IDF的标准全文搜索将文档,或者至少文档中的每一个字段,视作"一大袋的单词"(Big bag of Words)。match查询可以告诉我们这个袋子中是...
分类:其他好文   时间:2015-03-04 22:40:27    阅读次数:183
TF-IDF与余弦相似性的应用
类似的算法已经被写成了工具,比如基于Java的Classifier4J库的SimpleSummariser模块、基于C语言的OTS库、以及基于classifier4J的C#实现和python实现。
分类:其他好文   时间:2015-02-07 06:48:27    阅读次数:196
251条   上一页 1 ... 20 21 22 23 24 ... 26 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!