码迷,mamicode.com
首页 > 编程语言 > 详细

[JAVA]基本的数据集分析技巧

时间:2015-03-09 22:15:44      阅读:148      评论:0      收藏:0      [点我收藏+]

标签:

抽取信息并统计,排序

任务是对语料进行预处理,对1000个问题的答案和回复进行抽取有用信息并统计。

首先,分析文本内容、格式,思考如何抽取。文件有三种类型answer、comment、vote,因此在开始时根据前面几个字符先判断文件类型。

接着根据需求构造对象和方法,并构造对象list来存储抽取出来的信息。

具体的抽取方法是用split字符将文本划分为数组,然后用相同的方法再继续划分直到获得所需的关键字,并将其存入list中。

获取得到所有的作者姓名,问题id,答案id,回复id,写入新文件。

 

第二步,统计每个作者的答案数量、回复数量,用hashmap<String,Object>保存结果,若有相同作者,根据回复是否为空来判断是答案或者回复并计数,

最后结果存入新的list中,格式:作者姓名,答案数量,回复数量。

 

最后,构造Comparator比较器来排序,根据写作数量(答案+回复)升序,若相同则按照答案排序。以及统计总量,作者总数,答案总数,回复总数,

求取平均每个作者写的答案数和回复数。要注意的是结果用小数表示。

[JAVA]基本的数据集分析技巧

标签:

原文地址:http://www.cnblogs.com/yyyyyi/p/4324457.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!