文档摘要自动提取算法——抽取式
自动提取文档摘要的算法,主流方法分为两类:Extractive 抽取式、Abstractive 概要式。这篇我们主要将抽取式。
抽取式:
从原始文档集中抽取一些具有代表性的文本片段构成摘要,这些片段可以是整个文档中的句子、子句、段落或者小节。
抽取式方法有两个问题,如何对文本单元排序打分;如何抽取文本单元的...
分类:
编程语言 时间:
2015-02-09 12:54:18
阅读次数:
704
再理解RankNet算法
前面的一篇博文介绍了学习排序算法(Learning to Rank)中的RankNet算法。如下:
http://blog.csdn.net/puqutogether/article/details/42124491
那次的入门对其中的算法流程和基本原理没有深入了解,这次看自动摘要提取算法的时候,里面有一个排序单元,使用到的...
分类:
编程语言 时间:
2015-02-09 11:04:55
阅读次数:
334
http://www.blogjava.net/zhenandaci/archive/2008/08/31/225966.html前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息...
分类:
编程语言 时间:
2015-02-04 20:05:44
阅读次数:
282
[搜索][搜索]波特词干(Porter Streamming)提取算法详解(3)详解(3)...
分类:
编程语言 时间:
2014-11-30 23:22:05
阅读次数:
280
引言该文是由EPFL的Calonder在ECCV2010上提出了一种可以快速计算且表达方式为二进制编码的描述子。主要思路就是在特征点附近随机选取若干点对,将这些点对的灰度值的大小,组合成一个二进制串,并将这个二进制串作为该特征点的特征描述子。算法描述 首先,该文特征点提取算法与SIFT一致,也可以仿...
分类:
其他好文 时间:
2014-11-05 19:17:02
阅读次数:
635
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它...
分类:
其他好文 时间:
2014-09-24 19:29:07
阅读次数:
208
[摘要]关键词提取是中文信息处理技术的热点和难点,基于统计信息的方法是其中一个重要分支。本文针对基于统计信息关键词提取方法准确率低的问题,提出基于高维聚类技术的中文关键词提取算法。算法通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。理论分析和实验显示,基于高维聚类技...
分类:
其他好文 时间:
2014-09-24 18:00:37
阅读次数:
141
1.TF-IDF2.基于语义的统计语言模型文章关键词提取基础件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重...
分类:
其他好文 时间:
2014-09-24 16:02:07
阅读次数:
165
在opencl开发中,有时需要保证精度,需要支持double类型,但是double类型在opencl标准里面不是要求强制实现的,有些设备支持,有些不支持,如果你的设备支持的话,就需要在所有出现在double的最前面声明如下:#pragma OPENCL EXTENSION cl_khr_fp64: enable但是这也有一个问题,就是不能保证程序的可移植性,之前在编写地形因子提取算法时,在某些AM...
分类:
其他好文 时间:
2014-09-14 18:07:57
阅读次数:
463
目前,很难找到一种普适的方法能够应对所有的配准情况,任何一种配准算法都必须考虑图像的成像原理、几何变形、噪声影响、配准精度等因素。不过,从原理上将,配准算法可以大致分为以下四个步骤:
(1)特征提取
采用人工或者自动的方法检测图像中的不变特征,如:闭合区域、边缘、轮廓、角点等。特征提取算法需要满足三个条件
(a)显著性,所提取的特征应该是比较明显的,分布广泛的、易于提取的特征;
(b)抗噪...
分类:
其他好文 时间:
2014-08-25 19:23:34
阅读次数:
219