搜索关键字：tfidf，搜索到35个结果！码迷,mamicode.com！

tf-idf hadoop map reduce

package com.jumei.robot.mapreduce.tfidf;import java.io.IOException;import java.util.Collection;import java.util.Comparator;import java.util.Map.Entry;...

分类：其他好文时间：2014-11-28 21:15:21 阅读次数：475

nltk-比较文档相似度-完整实例

整理自?http://itindex.net/detail/44409-%E8%AE%A1%E7%AE%97-%E7%9B%B8%E4%BC%BC 说明： * 其中基准数据，可以来自外部，处理过程为： ? ? ?- 处理为词袋 ? ? ?- 经过数据集的tfidf结果 * 无法处理中文 ...

分类：其他好文时间：2014-09-16 19:17:11 阅读次数：246

Weka学习 -- StringToWordVector 源码学习（1）

在文本分类和聚类种，都会对文本进行切词分词，然后转化为向量，最后求其TFIDF值，余弦相似性等。本文将介绍了WEKA源码中StringToWordVector中的源码知识，自己也可以基于这个类构建符合自己需求的StringToWordVector类。...

分类：其他好文时间：2014-07-22 23:58:49 阅读次数：640

TFIDF文档向量化-Mahout_MapReduce

Mahout之SparseVectorsFromSequenceFiles源码分析目标：将一个给定的sequence文件集合转化为SparseVectors1、对文档分词1.1）使用最新的{@link org.apache.lucene.util.Version}创建一个...

分类：其他好文时间：2014-06-08 21:56:03 阅读次数：501

Lucene TFIDF打分公式

还没读TFIDFSimilarity的代码，读了一下lucene的文档，没有特复杂，感觉还是非常严谨的。对于查询q和文档d,如果查询为纯token查询，套用向量空间模型(VSM),相似度度量使用余弦，另外再加一个coord(q,d)即d中满足q中must和should查询条件个数的度量(预计通常是m...

分类：其他好文时间：2014-05-31 12:26:13 阅读次数：447

共35条上一页 1 2 3 4

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)