[JAVA]基本的数据集分析技巧

时间：2015-03-09 22:15:44 阅读：148 评论：0 收藏：0 [点我收藏+]

标签：

抽取信息并统计，排序

任务是对语料进行预处理，对1000个问题的答案和回复进行抽取有用信息并统计。

首先，分析文本内容、格式，思考如何抽取。文件有三种类型answer、comment、vote，因此在开始时根据前面几个字符先判断文件类型。

接着根据需求构造对象和方法，并构造对象list来存储抽取出来的信息。

具体的抽取方法是用split字符将文本划分为数组，然后用相同的方法再继续划分直到获得所需的关键字，并将其存入list中。

获取得到所有的作者姓名，问题id，答案id，回复id，写入新文件。

第二步，统计每个作者的答案数量、回复数量，用hashmap<String,Object>保存结果，若有相同作者，根据回复是否为空来判断是答案或者回复并计数，

最后结果存入新的list中，格式：作者姓名，答案数量，回复数量。

最后，构造Comparator比较器来排序，根据写作数量（答案+回复）升序，若相同则按照答案排序。以及统计总量，作者总数，答案总数，回复总数，

求取平均每个作者写的答案数和回复数。要注意的是结果用小数表示。

标签：

原文地址：http://www.cnblogs.com/yyyyyi/p/4324457.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行