码迷,mamicode.com
首页 > 编程语言 > 详细

文档摘要自动提取算法——抽取式

时间:2015-02-09 12:54:18      阅读:704      评论:0      收藏:0      [点我收藏+]

标签:自动提取摘要   学习排序   抽取   整数规划   

文档摘要自动提取算法——抽取式

    

    自动提取文档摘要的算法,主流方法分为两类:Extractive 抽取式、Abstractive 概要式。这篇我们主要将抽取式。


抽取式:

    从原始文档集中抽取一些具有代表性的文本片段构成摘要,这些片段可以是整个文档中的句子、子句、段落或者小节。

    抽取式方法有两个问题,如何对文本单元排序打分;如何抽取文本单元的一个子集生成摘要。分别对应着排序单元和抽取单元。

    通俗讲就是,先用排序单元把文档中的单元排序,选择排名靠前的单元,再用抽取单元去除选出来的单元之间的冗余信息,得到最后的自动摘要。


    

    两种实现思路:1)排序单元给句子打分,抽取单元抽取(去除冗余)句子子集作为摘要;2)排序单元给文档集中的概念打分,抽取单元抽取一组能够最大限度覆盖重要概念的句子。

    对于排序单元,有三种学习排序算法:

1) pointwise排序:孤立地处理每个样本(句子或者概念),把句子的特征和标记(排序等级)输入到机器学习算法中,学习出分类器;

2) pairwise排序:从一系列句子对或者概念对{(x_i, x_j)}中学习排序函数f(x_i)。考虑了两两样本之间的排序问题;

3) listwise排序:所有样本之间的排序都考虑在内。

一定程度上,学习排序算法(LTR)和多标记学习里的方法是类似的,一阶/二阶/高阶方法。

 

    对于抽取单元,需要从排序后的文本单元中,抽取一部分代表性的句子,生成抽取式摘要,在抽取的过程中,要尽可能地去除冗余。常用的是一个基于整数规划的抽取方法

技术分享


技术分享


技术分享



求解上面的整数规划,我们就可以得到哪些句子是需要抽取出来,组成摘要的。




参考文献:

文档摘要算法的研究与应用    金锋





文档摘要自动提取算法——抽取式

标签:自动提取摘要   学习排序   抽取   整数规划   

原文地址:http://blog.csdn.net/puqutogether/article/details/43668637

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!