码迷,mamicode.com
首页 > 其他好文 > 详细

大数据之文章分类

时间:2016-02-20 01:50:52      阅读:195      评论:0      收藏:0      [点我收藏+]

标签:

记下来 不然以后又忘记了。

  

AnalysisEntry:总体调动,调类的顺序;
WordFrequenceInDoc:提取中文,分词,去停词,统计词频;
在去停词时,要做一个词库,my.dic或者stopword.dic
WordCountsInDoc:统计每个文档的单词数目;
WordsInCorpusTFIDF: 统计单词在多少个文档出现,计算TFIDF,建立词表;

SortTFIDF: 对TFIDF进行排序;

CombinationKey,类是合成一个键(两个字段或多个字段合成为一个key),以键排序,在SortTFIDF中调用;
DefinedComparator 定义一个比较器,排序的时候就要调用此定义进行比较;
DefinedPartition 定义分区,Partitioner的作用是对Mappper产生的中间结果进行分片,以便将同一分组的数据交给同一个Reducer处理,它直接影响Reduce阶段的负载均衡。这里定义的DefinePartition就是为了按Key来分片;

DocVetorBuild :建立词向量 这是因为在使用SVM算法的时候,输入时,使用的是向量
UseSVM :调用SVM算法,进行分类;
SVM属于监督类算法,需要把数据做为两部分,一部分时作为训练集,一部分作为测试集(也就是说,
先人工分好一部分数据,作为标准训练,而来新的数据的时候,就用来测试(预测);

Test.java 用来测试一些功能,测试好后,在用;

大数据之文章分类

标签:

原文地址:http://www.cnblogs.com/czike/p/5202550.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!