码迷,mamicode.com
首页 > 其他好文 > 详细

PCNN

时间:2019-09-28 20:05:25      阅读:95      评论:0      收藏:0      [点我收藏+]

标签:vol   super   str   超过   范围   网络   针对   需要   抽取   

Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

1. 关键字

关系抽取远程监督

2. 摘要

本文提出了PCNNs,用来解决远程监督关系抽取中的两个问题:一个是在对齐知识图谱时的错误标注问题,一个是使用NLP工具提取特征时的错误传播问题。对于前者,方法是将对齐问题转化为多实例学习问题,从而将实例标签的不确定性纳入了考虑范围;对于后者,采用成对的最大池化层来自动学习相关的特征。

3. 问题

错误标注问题

用远程监督的方法来做关系抽取,需要一个知识图谱来启发式地对齐文本,如果对齐失败,就会出现错误标注的问题。

在关系抽取领域,由于监督方法将关系抽取看作一个多分类问题,所以有一个难点就是如何在已知关系的前提下生成训练样本。Mintz等人提出一个假设,如果在知识图谱中两个实体存在某种特定关系,那么所有包含这两个实体的句子都表达出了这种关系。这个假设有效地为任一关系生成了大量训练样本。但是,很明显,这个假设是有问题的,如果句子中存在“乔布斯”和“苹果”这两个实体,该句子既可能表达出“创始人”这一关系,还可以表达出“离开”这一关系。这就是错误标注问题。

错误传播问题

从监督数据中抽取特征用的都是NLP工具,工具本身不可避免的错误会导致错误传播和累积。一般情况下,关系抽取的语料都是来自于网络,句子长度也都超过40,McDonald证明,句法分析的准确率会随着句子加长而显著降低。所以,错误传播不仅存在,而且会变得严重。

4. 方法论

为了解决错误标注问题,Riedil等人针对多实例学习提出了一个松弛的远程监督假设。在多实例学习中,训练集由一些包(bag)组成,并且每个包中又包含了一些实例(instance)。这些包的标签是已知的,但是包中实例的标签是未知的。多实例学习将实例标签的不确定性纳入了考虑范围,从而聚焦于对包的区分。

为了解决错误传播问题,本文扩展了Zeng等人的方法,由于单个最大池化层不足以捕获到命名实体之间的结构化信息,所以在单个最大池化层的基础上提出成对最大池化层,具体见模型结构。

5. 模型结构

向量表示

词向量通过look up预训练词向量得到,同时,使用了位置特征来指定实体对,该特征同样被转化为向量。

  • 词嵌入:使用skip-gram模型来训练词向量
  • 位置嵌入:位置特征被定义为句子中当前词到实体e1e2的距离

每个句子的长度为s,每个词的词向量维度为dw,加上两个位置特征2*dp,于是一个词向量的维度就为dw+2*dp.

卷积

由于是给整个句子预测关系,所以需要使用所有局部特征并且做一个全局预测。

那么卷积就是一个很好地合并所有特征的方法。

一个句子的维度是s*d,其中d是词向量的维度。卷积和的尺寸为w*d,当剩下长度不足w的时候,填充0,于是卷积结果的长度为\(s+w-1\).

当然,为了捕捉到不同的特征,将使用n个卷积核,于是卷积结果为

PCNN

标签:vol   super   str   超过   范围   网络   针对   需要   抽取   

原文地址:https://www.cnblogs.com/flyangovoyang/p/11604446.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!