码迷,mamicode.com
首页 > 其他好文 > 详细

文本内容分析和智能反馈(2)- 数据预处理和按纬度统计

时间:2015-05-29 08:40:35      阅读:183      评论:0      收藏:0      [点我收藏+]

标签:预处理   weka   文本分析   分词   

书接上文,考虑4个核心功能的实现,先考虑:数据预处理和按纬度统计。

1、数据预处理

1.1、基本原则

首先,考虑数据的格式。

业务数据是保存在关系型数据库中的。数据分析的部分,我们将使用Weka,虽然Weka习惯ARFF格式,为了实现数据分析和提取的自动化,我们将通过Weka的JDBC接口为其提供数据。这样,可以使用ETL工具或者通过程序代码执行SQL实现数据提取和格式转换。
在开发阶段,我们基本上可以将数据提取和转换逻辑固定下来,没有必要采用专门的ETL工具。

其次,考虑数据转换的要求。

我们初步确定的关键属性为:业务板块、行政区划、时间段、文档编号、专家、 词、 词频。对于空值需要设定合理的默认值。为了便于分析,需要将时间段等连续值进行离散化处理。

再其次,需要考虑数据的层级。

业务板块和行政区划都存在分级的情况。在初期,为了简化问题,将行政区划做扁平化处理,认为只有一个层级。但后续处理过程中,根据数据密度的不同,可能将本来同一个级别的数据,合并若干稀疏的行政区划,对数据过密的区划进行进一步的拆分。
对于业务板块,本身是树形结构,先按最细的粒度分析,稍后可以实现roll up和drill down的功能。时间段,也可以按不同粒度分析。

最后,考虑数据处理的策略和频度。

由于数据条目中间不存在复杂关系,天然支持Map-Reduce处理架构,支持依据timestamp增量处理。

1.2、具体实现

1.2.1、 分析结果的格式

首先,定义保存分词结果的表。

create table doc_word_segmentation{
    doc_id          varchar2(32),
    busi_sector     varchar2(30),
    busi_prop1      varchar2(100),
    busi_prop2      varchar2(100),
    busi_prop3      varchar2(100),
    busi_prop4      varchar2(100),
    busi_prop5      varchar2(100),
    reg_org         varchar2(9),
    timespan        varchar2(8),
    inspector       varchar2(32),
    word            varchar2(200),
    cnt             number(18,0)
}

这个表是中间过程表,保持了数据的最细粒度,可以通过word反查得到doc_id,从而可以回溯原始数据。

假设原数据有2000万条,每天增加4000条,每条分词得到50个词。
那么这个表将有10亿条记录,每天增加20万条。

效率不太高,不能保存所有的记录。
如果只保存当前半年的,那么共3600万条记录,貌似可以接受了。
更极端的情况,这个表可以只用做保存中间结果,汇总后即删除掉临时数据。

对于半年以前的数据,汇总后,只保存汇总后的结果。

对上表汇总后得到:

create table doc_word_statistics{
    word            varchar2(200),
    busi_sector     varchar2(30),
    busi_prop1      varchar2(100),
    busi_prop2      varchar2(100),
    busi_prop3      varchar2(100),
    busi_prop4      varchar2(100),
    busi_prop5      varchar2(100),
    reg_org         varchar2(9),
    timespan        varchar2(8),
    inspector       varchar2(32),
    cnt             number(18,0)
}

这个表的数据是我们真正需要的。
是后续工作的基础。

1.2.2、 分词算法

可供选择的中文分词算法很多。
暂时不考虑需要License的。

先试试je-analysis和IKAnalyzer。
找jar包,写代码很简单,不冗述。jar包可能存在和lucene兼容的问题,不一定找最新的,先实现,以后再慢慢优化。

字典需要慢慢积累,需要自动给出建议,批量审核入库。

1.2.3、 代码实现

通过实现以下函数最终实现程序功能:

interface TextAnalyzer{
    /**
     * 返回分词结果,Map的key为word,value为word在文档中出现的次数。
     */
    Map<String,Long> wordSegmentat(String text);

    /**
     * 分析文档,得到分析结果数据。
     * 可进一步汇总,或暂时先入库保存。
     */
    List<DocWordSegmentationDomainObject> analyzeDoc(String docId);

    /**
     * 用于多worker协作执行大批量分析任务。
     * timespan 可以是 201501 也可以是 20150520 ,甚至是 2015052001。
     * 视数据量而定。
     */
    void analyzeByTimespan(String timespan);

    /**
     * 对分词结果进行汇总。
     */
    void statistics(String timespan);
}

2、按纬度统计

基于数据预处理的结果,很容易通过SQL获得按纬度统计的结果。

既然提到“纬度”了,要不要借助Mondrian等工具定义一个Cube,通过jPilot展现看看呢?
这不是核心需求。而且想要使用这两个工具达到生产级的要求,太麻烦。

文本内容分析和智能反馈(2)- 数据预处理和按纬度统计

标签:预处理   weka   文本分析   分词   

原文地址:http://blog.csdn.net/stationxp/article/details/46224319

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!