在文本分类和聚类种,都会对文本进行切词分词,然后转化为向量,最后求其TFIDF值,余弦相似性等。
本文将介绍了WEKA源码中StringToWordVector中的源码知识,自己也可以基于这个类构建符合自己需求的StringToWordVector类。...
分类:
其他好文 时间:
2014-07-22 23:58:49
阅读次数:
640
WEKA学习: CSVLoader按照自己需要加载文本数据,并且经StringToWordVector处理,应用于文本的分类和聚类。...
分类:
其他好文 时间:
2014-07-21 16:25:13
阅读次数:
433