码迷,mamicode.com
首页 >  
搜索关键字:tfidf    ( 35个结果
tf-idf hadoop map reduce
package com.jumei.robot.mapreduce.tfidf;import java.io.IOException;import java.util.Collection;import java.util.Comparator;import java.util.Map.Entry;...
分类:其他好文   时间:2014-11-28 21:15:21    阅读次数:475
nltk-比较文档相似度-完整实例
整理自?http://itindex.net/detail/44409-%E8%AE%A1%E7%AE%97-%E7%9B%B8%E4%BC%BC 说明: * 其中基准数据,可以来自外部,处理过程为: ? ? ?- 处理为词袋 ? ? ?- 经过数据集的tfidf结果 * 无法处理中文 ...
分类:其他好文   时间:2014-09-16 19:17:11    阅读次数:246
Weka学习 -- StringToWordVector 源码学习(1)
在文本分类和聚类种,都会对文本进行切词分词,然后转化为向量,最后求其TFIDF值,余弦相似性等。 本文将介绍了WEKA源码中StringToWordVector中的源码知识,自己也可以基于这个类构建符合自己需求的StringToWordVector类。...
分类:其他好文   时间:2014-07-22 23:58:49    阅读次数:640
TFIDF文档向量化-Mahout_MapReduce
Mahout之SparseVectorsFromSequenceFiles源码分析目标:将一个给定的sequence文件集合转化为SparseVectors1、对文档分词1.1)使用最新的{@link org.apache.lucene.util.Version}创建一个...
分类:其他好文   时间:2014-06-08 21:56:03    阅读次数:501
Lucene TFIDF打分公式
还没读TFIDFSimilarity的代码,读了一下lucene的文档,没有特复杂,感觉还是非常严谨的。对于查询q和文档d,如果查询为纯token查询,套用向量空间模型(VSM),相似度度量使用余弦,另外再加一个coord(q,d)即d中满足q中must和should查询条件个数的度量(预计通常是m...
分类:其他好文   时间:2014-05-31 12:26:13    阅读次数:447
35条   上一页 1 2 3 4
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!