论文阅读 | Ubicomp19 Apply Event Extraction Techniques to the Judicial Field

时间：2020-02-21 23:53:48 阅读：162 评论：0 收藏：0 [点我收藏+]

标签：位置事件 str font 离婚 enc bio style 环境

一、摘要

为了方便法官更好地了解案情，采用事件抽取技术更快地捕捉案情的“焦点”。本研究提出了一种定义焦点事件的机制，并且能够解决多个事件共享同一论元（arguement）或触发词的问题。

二、在法律背景下应用事件抽取技术的难点

事件类型与ACE2005数据集定义的33种事件有很大的不同
没有现成的公开可用的数据集
在法律文本中，经常会出现多个事件共享事件成员或触发词的现象，具体例子见下图

技术图片

三、方法

主要以离婚案例为例。

方法主要分为三部分：核心事件类型定义、数据标注、事件抽取。

技术图片

定义核心事件类型

主要定义了13种事件类型，40种事件参数类型。

技术图片

数据标注

采用BIO模式进行数据标注。首先对一小部分数据进行预标注，之后在http://brat.nlplab.org/about.html环境中进行标注。

事件抽取

下图展示了事件抽取的步骤。

技术图片

下面详细解释一下事件抽取的过程。

触发词词典：尽可能多地收集事件触发词，并形成触发词词典。

过滤和分类触发词：首先使用LTP对句子进行分词，之后对每个单独的句子，通过触发词词典来确定其中是否有事件，并且确定触发词。

First Labelling：如上所述，对离婚事件定义了13个事件触发词和40个事件参数。这一步将原来的40个label映射到12个transition label，以减少label种类数和某种label的总数。下面是定义的transition label以及first label操作的架构。

技术图片