大数据之文章分类

时间：2016-02-20 01:50:52 阅读：195 评论：0 收藏：0 [点我收藏+]

标签：

记下来不然以后又忘记了。

AnalysisEntry:总体调动，调类的顺序；
WordFrequenceInDoc:提取中文，分词，去停词，统计词频；
在去停词时，要做一个词库，my.dic或者stopword.dic
WordCountsInDoc：统计每个文档的单词数目；
WordsInCorpusTFIDF: 统计单词在多少个文档出现，计算TFIDF,建立词表；

SortTFIDF: 对TFIDF进行排序；

CombinationKey，类是合成一个键（两个字段或多个字段合成为一个key），以键排序，在SortTFIDF中调用；
DefinedComparator 定义一个比较器，排序的时候就要调用此定义进行比较；
DefinedPartition 定义分区，Partitioner的作用是对Mappper产生的中间结果进行分片，以便将同一分组的数据交给同一个Reducer处理，它直接影响Reduce阶段的负载均衡。这里定义的DefinePartition就是为了按Key来分片；

DocVetorBuild :建立词向量这是因为在使用SVM算法的时候，输入时，使用的是向量
UseSVM :调用SVM算法，进行分类；
SVM属于监督类算法，需要把数据做为两部分，一部分时作为训练集，一部分作为测试集（也就是说，
先人工分好一部分数据，作为标准训练，而来新的数据的时候，就用来测试(预测)；

Test.java 用来测试一些功能，测试好后，在用；

大数据之文章分类

标签：

原文地址：http://www.cnblogs.com/czike/p/5202550.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行