某业务内容为短文本,5字或200字左右,针对某个专题,有附属属性。
提交人为非专业用户。
提交后,专家进行审核,某几个专家针对某个行政区划。
对审核不通过的内容,专家会给出修改建议。
业务量较大,单次审核周期一般在1~3个工作日。
如果能够提高一次通过率,将直接提高系统效率。
对于5字左右短文本,如果能够智能审核,减轻专家工作量,也将对系统整体效率带来促进。
有几件事情可以做:
对审批意见分词,按如下关键属性保存分词结果。
关键属性包括:业务板块、行政区划、时间段(以半年为单位做离散化处理)、文档编号、专家、 词、 词频。
增量分析。
实现如下函数:
List<Map<String,Long>> getTopSuggest(Map<String,Object> dimensions)
依托预处理模块得到的数据,传入不同纬度的组合,返回词频最高的审批意见。
需注意无效词的过滤。
获得高频出现的五元组、四元组、三元组、二元组,具体视结果质量而定。
找到恰当的阀值。
定义词的距离,进行聚类分析。
原文地址:http://blog.csdn.net/stationxp/article/details/46106093