标签:人工 本质 两种方法 输出 世纪 动作 列表 例子 转化
出于不同的目的,一般采用信息抽取与特征工程的方式实现文本结构化技术,但是这两种方法在本质上属于不同类型的方法,信息抽取一般是预定义想要抽取的信息类型,然后从原始非结构化文本中抽取一段属于该信息类型的字符串子序列,该信息也是由文本进行表示。而特征工程一般是预先设计特征规则或特征算法,最后生成一系列特征值,每个特征值都是一个浮点数而不是文本,用这些特征值组成一个特征向量,用于在数字空间中表示原始文本,该向量的每个特征值都涵盖了原始文本在某一维特征上的信息权重。
由于特征工程并不是一个学术领域的研究方向,本文对特征工程技术简要介绍,主要介绍信息抽取在文本结构化处理中的技术进展。
想要构建性能优良的机器学习模型,特征工程是必不可少。对于非结构化的文本数据来说,特征工程就更加重要,因为我们需要将文本流转化为算法能够理解的数字表示。采用特征工程的方式可以从非结构化文本中提取出结构化信息特征,但是这种特征往往不是文字表示,而是一个带有某种衡量信息权重的特征值。
在信息抽取中,算法具有一个先验知识——待抽取的信息数量与类型,即数据维度固定。但是,文本数据的包含的信息一般不仅仅局限于预先定义的固定数量的信息槽,使用这种槽填充的信息抽取方式,虽然可以抽取到想要的信息内容,但是会丢失掉未出现信息槽中的信息内容。而特征工程则可以弥补这种不足,因为他是从文本中提取包含全局信息内容的文本特征。
另一方面,信息检索与信息抽取又是互补的。为了处理海量文本,信息抽取技术有时候以信息检索的输出作为输入,即完成文本过滤(剪枝)的操作;同时,信息抽取技术也可以用来提高信息检系统的性能。因此,二者的结合能够更好地服务于用户的信息处理需求。
在信息抽取中,用户一般只关心有限的感兴趣的事实信息,而不关心文本意义的细微差别以及作者的写作意图等深层理解问题。因此,信息抽取只能算是一种浅层的文本理解技术,相当于对原始文本进行简化。
命名实体识别是信息抽取的基础性工作,其任务是从文本中识别出人名、组织名、日期、时间、地点、特定的数字形式等内容,并进行归类,为信息抽取的后续工作提供便利。
早期研究人员通常创建基于语法的语言模型,利用人工规则进行命名实体识别,这种方法有较好的准确率,但是召回率不理想。之后,研究人员考虑将统计模型引入到命名实体识别的视线上,利用机器学习的方法习得领域知识库,然后再对测试文本进行分析,这种方法取得了较好的效果,一定程度上弥补了基于规则的不足。
近些年,社交媒体在互联网中呈井喷式发展,由于其内容较短,句子成分复杂和随意,导致传统的NLP方法在分析微博等社交媒体是效果不佳,因此微博文本的分析也成为了当前研究热点。美国华盛顿大学的Alan等人在对微博文本特点进行分析后,提出了基于文本分类和词性标注相结合的命名实体方法。该方法首先对短微博进行分类,尽可能降低文本特征维度,接着通过人工标注的训练集对文本进行词性标注;之后采用条件随机场CRF和交叉验证的方式对文本进行浅层语法分析,以识别出非递归短语;最后利用支持向量机SVM的机器学习方法,获取命名实体的分布情况。与传统的文本处理方法相比,该方式取得了较好的效果。
在国内,命名实体识别的研究也进入了实用阶段。2006年,中科院提出了一种基于HMM模型的中文实体识别方法。该方法逐级执行HMM算法,并取得了一定的效果。目前已经成为了中科院词法分析工具ICTCLAS的核心实现算法。
苏州大学鞠久朋等人又提出了一种CRF与规则结合的地理空间命名实体识别方法,该方法以丰富的知识作为触发条件,其知识包括行政区划及其层级关系、地名通用词典、黄页中的公司名、特殊句型句式等等。用CRF对满足条件的片段做地方和机构名识别,识别出来的命名实体又被解构,即解析出实体的内部结构,找出其中包含的通名、专名、饰名及扩展单元。之后进一步判断该命名实体是否表示事件发生地的地理空间信息。
关系抽取的作用是获取文本中实体之间存在的语法或语义上的联系,关系抽取是信息抽取的关键人物。早期的关系抽取主要采用模式匹配的方法,随后又出现了基于词典驱动的方法,当前主要采用基于机器学习和基于Onthology的方法。这里主要介绍后两种方法的研究进展。基于机器学习的方法本质上还是对文本进行分类,其类别数量与关系数量相对应。
斯坦福大学在2009年提出了一种基于远程监督学习的无标注文本关系抽取方法。该方法以知识库Freebase为训练数据进行远程监督学习,自动对文本进行标注。之后设计了一系列文本特征并进行组合,其算法融合了无监督和有监督的信息抽取方法。结果表明他们的方法既能从无标注文本中抽取出实体关系,也在一定程度上脱离了对领域知识的依赖。
2011年,德国洪堡大学的Thomas等人,提出了一种利用整体学习方法抽取药物之间相互关系。他们的方法基于不同语言特征空间,构建多种机器学习方法对比机制,然后利用整体学习方法选出效果最好的方法。
传统的有监督学习方法假定每个实例明确地映射到一个关系标签,但这与实际并不总是一只,因为有的实例同时属于多个关系标签。为此,斯坦福大学2012年将多实例多标记学习进入到关系抽取中,形成了一种新方法。他利用带有隐变量的图模型,将文本中的实体对和其标记融合在一起。这一方法一定程度上克服了远程监督学习的缺陷。
近年来,随着深度学习技术在自然语言处理的各项任务上发挥了不俗的效果,也有一些研究学者,将深度学习应用于关系抽取。中科院的赵军和刘康曾在2015年提出了使用PCNN模型捕获句子级别实体之间的关系,该模型通过设计分段的max-pooling层,具体的分段方式是根据实体所在位置,将整个文本切分成了三段,对于每一段分别执行max-pooling,以捕获到两个实体在句子在不同位置的重要信息,由于知道模型对实体关系进行分类。另一方面,在中科院的周鹏也在2016年提出了利用双向LSTM与Attention机制,实现关系抽取任务,该模型希望通过Attention,是的模型能够捕获到实体之间的关系信息,并在公开评测任务上取得了很好的效果。
在信息抽取中,事件是指在某个特定的时间和地点发生的,由一个以上角色参与、一个以上动作组成的一件事情,一般是句子级别的。事件抽取主要研究,如何从含有事件信息的非结构化文本中,抽取出用户感兴趣的事件信息,将用自然语言表达的事件以结构化的形式呈现出来。在事件抽取研究的发展过程中,ACE会议给予的影响最为深远。
事件抽取大体上可以分为元事件抽取和主题事件抽取两个层次,其中元事件是基于句子级别的事件抽取,是指一次动作 的发生或状态的转变。其待抽取的信息内容包括时间、地点、人物、动作等;主题事件抽取是指围绕某一确定的主题,获取与其相关的一系列事件,通常由多类元事件组成。当前的研究主要集中于元事件抽取层面,另一方面,目前的事件抽取研究使用的语料还是以新闻、生物、医学等个别领域为主,面向开放文本的事件抽取研究较少。
Davud Ahn在2006年提出一种基于分治思想的事件抽取方法,他将ACE会议中关于事件抽取的任务分解为一系列分类子任务,如锚记标识、论元识别、属性赋值和事件共指,其中每个子任务由一个机器学习分类其负责实施。基于句法分析和词法分析,此方法综合运用多种分类方法,主要包括K近邻分类算法,最大熵分类起等等,以提取事件属性及特征。
在ACL2011中,来自芬兰图尔库大学的Jari Bjorne介绍了他们研发的一款应用于生物医学领域的事件抽取系统,该系统能够有效对领域事件进行抽取。此系统基于SVM分类器工作,将词法、句子、词语之间的依赖关系作为选择特征,其事件抽取实现过程大致为:在句子识别出所有的实体;预测实体之间的属性关系;最后将实体集分离成为独立的事件。该系统在当年的公开评测上取得了最好的效果。
近年来,也有一些研究学者将深度学习应用于事件抽取任务中。赵军和刘康在2015年提出了DMCNN模型,用于实现句子级别的事件抽取,该模型借鉴了深度学习在关系抽取中的应用,将CNN模型应用于事件抽取,同时设计了动态的多池化算法。该模型在实际评测中取得了很好的效果。2018年,该团队又在ACL2018上提出了金融领域文档级别的事件抽取系统。首先利用金融专家设计的专业知识库,结合远程监督的思想,构建了一批有监督的训练数据。之后在此基础上应用BILSTM与CRF模型,实现句子级别的事件抽取,同时又对每个句子进行二分类,识别某一句子是否包含了事件信息。对于跨句的事件论元信息,该系统设计了启发式算法用于填充事件信息槽,并取得了很好的效果。
标签:人工 本质 两种方法 输出 世纪 动作 列表 例子 转化
原文地址:https://www.cnblogs.com/szxspark/p/10262141.html