标签:
抽取信息并统计,排序
任务是对语料进行预处理,对1000个问题的答案和回复进行抽取有用信息并统计。
首先,分析文本内容、格式,思考如何抽取。文件有三种类型answer、comment、vote,因此在开始时根据前面几个字符先判断文件类型。
接着根据需求构造对象和方法,并构造对象list来存储抽取出来的信息。
具体的抽取方法是用split字符将文本划分为数组,然后用相同的方法再继续划分直到获得所需的关键字,并将其存入list中。
获取得到所有的作者姓名,问题id,答案id,回复id,写入新文件。
第二步,统计每个作者的答案数量、回复数量,用hashmap<String,Object>保存结果,若有相同作者,根据回复是否为空来判断是答案或者回复并计数,
最后结果存入新的list中,格式:作者姓名,答案数量,回复数量。
最后,构造Comparator比较器来排序,根据写作数量(答案+回复)升序,若相同则按照答案排序。以及统计总量,作者总数,答案总数,回复总数,
求取平均每个作者写的答案数和回复数。要注意的是结果用小数表示。
标签:
原文地址:http://www.cnblogs.com/yyyyyi/p/4324457.html