package com.jumei.robot.mapreduce.tfidf;import java.io.IOException;import java.util.Collection;import java.util.Comparator;import java.util.Map.Entry;...
分类:
其他好文 时间:
2014-11-28 21:15:21
阅读次数:
475
整理自?http://itindex.net/detail/44409-%E8%AE%A1%E7%AE%97-%E7%9B%B8%E4%BC%BC 说明: * 其中基准数据,可以来自外部,处理过程为: ? ? ?- 处理为词袋 ? ? ?- 经过数据集的tfidf结果 * 无法处理中文 ...
分类:
其他好文 时间:
2014-09-16 19:17:11
阅读次数:
246
在文本分类和聚类种,都会对文本进行切词分词,然后转化为向量,最后求其TFIDF值,余弦相似性等。
本文将介绍了WEKA源码中StringToWordVector中的源码知识,自己也可以基于这个类构建符合自己需求的StringToWordVector类。...
分类:
其他好文 时间:
2014-07-22 23:58:49
阅读次数:
640
Mahout之SparseVectorsFromSequenceFiles源码分析目标:将一个给定的sequence文件集合转化为SparseVectors1、对文档分词1.1)使用最新的{@link
org.apache.lucene.util.Version}创建一个...
分类:
其他好文 时间:
2014-06-08 21:56:03
阅读次数:
501
还没读TFIDFSimilarity的代码,读了一下lucene的文档,没有特复杂,感觉还是非常严谨的。对于查询q和文档d,如果查询为纯token查询,套用向量空间模型(VSM),相似度度量使用余弦,另外再加一个coord(q,d)即d中满足q中must和should查询条件个数的度量(预计通常是m...
分类:
其他好文 时间:
2014-05-31 12:26:13
阅读次数:
447