码迷,mamicode.com
首页 > 其他好文 > 详细

<知识库的构建> 4-2 实例提取 Instance Extraction

时间:2018-01-30 00:17:52      阅读:152      评论:0      收藏:0      [点我收藏+]

标签:ext   删除   pattern   算法   字符   spring   针对   body   语料库   

引自Fabian Suchanek的讲义。

 

总结:介绍了isA这种二元关系和它的应用即推理Taxonomy以得到完整的Taxonomy,再就是介绍了set expansion方法,从种子出发,找到文本中两个与种子相同的实例,就把该文本中其他的实例都添加至种子表中来逐渐的提取实例的方法,此方法也可以应用于HTML表格中。

 

isA(X,Y) : 是一个表示XY之间的二元关系,若成立则X是Y的子集

Hearst Pattern:是一段文本,表示了isA这种二元关系

       例如:Homer is a singer => isA(Homer,Singer),such as,including这种表示包含关系的单词,等等

       它必须结合NER和消歧来得到entity事实

小练习:对下列句子应用Heast Pattern,找到isA关系

I lived in such countries as Germany, France, and Bavaria.

He wrote about fictional entities such as Homer, Lisa, and Bielefeld.

I love people that are not genies, especially Homer.

isA(Germany, Country); isA(France, Country); isA(Bavaria, Country);

isA(Homer, fictionalentities); isA(Lisa, fictionalentities); isA(Bielefeld, fictionalentities);

isA(Homer, people);

 

分类推理Taxonomy Induction:建立完整的Taxonomy的过程,从根到叶

算法:

-      提取isA pattern

-      删除isA关系中造成的环

-      根据各种方式分类我们得到的edges,即数数,子字符串推理etc

 

扩张集合Set Expansion:通过给出的一个class中的一些实例即种子,从语料库中得到更多entity名字的过程

算法:不断重复这个过程

-      从种子开始,此时种子例如:aaa,bbb

-      找到corpus中X,Y and Z格式的pattern

-      若X,Y,Z中有两个是种子中的instance,那么剩余的那个就添加至KB

小练习:根据种子,找出下文中的新的instance

cities = {Springfield, Austin, Seattle}

句子:... Austin, Seattle, and Houston...

所以找到新的instance:Houston,添加至cities

新cities = {Springfield, Austin, Seattle,Houston}

句子:Houston, Chicago, and Springfield..

根据新cities,我们得到:Chicago,并添加至cities

所以我们得到cities = {Springfield, Austin, Seattle,Houston,Chicago}

 

语义漂移Semantic Drift:即不该分到这个集合中的的instance被分到了这个集合中

 

表格集合扩张Table Set Expansion:是针对于HTML的表格的set expansion找实例的方法

算法:

-      根据种子开始

-      找到HTML中的一列,若该列中有两个实例存在于种子表中

-      则把该列实体都添加至种子表中

<知识库的构建> 4-2 实例提取 Instance Extraction

标签:ext   删除   pattern   算法   字符   spring   针对   body   语料库   

原文地址:https://www.cnblogs.com/mengzizhao/p/8379733.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!