论文阅读 | Revisiting Joint Modeling of Cross-document Entity and Event Coreference Resolution

时间：2020-04-22 00:10:45 阅读：68 评论：0 收藏：0 [点我收藏+]

标签：mbed 评价 pac 生成 image 作者 word rms line

论文地址：https://arxiv.org/abs/1906.01753

作者：Shany Barhom, Vered Shwartz, Alon Eirew, Michael Bugert, Nils Reimers, Ido Dagan

机构： Bar-Ilan University, Intel AI lab, Technische Universitat Darmstadt

研究的问题：

关注的是跨文档的实体识别，也就是判断来两个来自于不同文档的实体/事件是否是同一个实体/事件。当前主要的研究是关注于同一个文档内的识别，对于跨文档任务，常用的数据集是ECB+，但当前在该数据集上的工作只涉及事件的共指识别。本文提出了一种用于跨文档共指解析的联合模型。

研究方法：

指代的表示：

对于给定的一个指代（实体或事件），使用以下特征来计算它的向量表示。

（1）跨度。使用词级别和字级别的特征，连接在一起作为跨度向量。

（2）上下文。使用ELMO来对上下文建模，取三个LSTM层结果的平均值。

（3）对于其他指代的语义依赖。使用SRL系统对指代之间的语义关系建模，具体是，使用Arg0，Arg1，location，time四种语法角色来表示。如果Arg1被填充了技术图片，它当前属于C这个实体类别。Arg1的向量就是C中所有指代的跨度向量的平均，否则就将它置为零向量。这部分的最终表示是Arg0，Arg1，location，time四部分向量的拼接

最终使用的向量是上述三种向量表示的拼接。

表示如下：

技术图片

指代的匹配：

整个模型如下图所示。

技术图片

通过S(m_i,m_j)来返回两个指代相同的概率分数，对于实体和事件使用不同的函数。

输入是技术图片，O代表的是按元素的乘法。F(i,j)是一个50维的二进制向量，表示两个指代是否有相互引用的参数或谓词。损失函数为二元交叉熵损失函数。

Inference：

首先使用k-means对文档聚类，生成一组主题T。在实体聚类和事件聚类之间交替迭代，逐步构建最终的聚类结果。

训练：

与inference的区别在于，使用gold standard的主题集群和初始化来减少训练时的噪音。

下面这种表是两个过程的算法描述。

技术图片

一些额外的启发式规则：

（1）将带所有格的名字性事件（如Amazon’s）定义为谓词和它的Arg0。

（2）使用spaCy识别主语和宾语是实体的动词事件，将这些实体作为他们的Arg0和Arg1.

（3）对于给定的事件，将其最接近的左/右实体定义为它的Arg0/Arg1.

实验结果：

实体引用的结果：

技术图片

事件引用的结果：

技术图片

总的来看，优于各种baseline模型。

评价：

本文的主要亮点在于提出的对于指代的表示，分别使用了自身的embedding，这里用了词粒度和字粒度两种，上下文向量，直接使用ELMO来作为上下文表示，ELMO相比于word2vec得到的embedding本身就有很多优点，最后是对于指代之间的关系的建模。一些缺点在于在提取谓语-内容结构时使用的固定的规则带来的误差，另外本文没有提到模型的时间运行效率，不过看下来模型的embedding时间应该消耗比较大。

论文阅读 | Revisiting Joint Modeling of Cross-document Entity and Event Coreference Resolution

标签：mbed 评价 pac 生成 image 作者 word rms line

原文地址：https://www.cnblogs.com/bernieloveslife/p/12748760.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行