引自Fabian Suchanek的讲义。
总结:主要讲了消歧的2种方式,即停止词,上下文,大语料库和小语料库消歧的方式是不同的,文章中的实体要注意协调一致标准。
消歧Disambiguation:找到有二义性的单词的含义来消除歧异
停止词Stop word:语料库中经常出现但没有搜索价值的词
大部分词都是停止词,除了:名词,形容词,非辅助动词
消除停止词的理由:当给出一个问题,我们根据在文章中找到问题中相同的词的个数来决定谁是答案,若有停止词,很有可能因为某篇文章停止词过多而和问题有很多重叠单词而被选为答案,所以删掉停止词是必要的。
小练习:删掉下列句子中的停止词
Don’t come here! come
Homer was hit by Marge. Homer hit Marge
Homer ate a few doughnuts. Homer ate doughnuts
单词的上下文Context of words:在该单词附近不是停止词的多组单词
实体的上下文Context of entities:该实体周围的实体的labels
基于上下文的消歧Context-based disambiguation:把语料库里的一个名字映射到KB中找到对应的实体entities,这些实体的上下文与原文重叠最多的即为该文章的标签
上面消歧的方式是针对于大一点的语料库,若语料库过小,不易找到对应实体的上下文与语料库重叠的次数,此时我们用另外一种消歧的方式:优先消歧
优先消歧Prior Disambiguation:看问题中单词与语料库中单词重叠的单词,看该单词能在维基百科上找到多少篇相关的文章,进行加权,谁得多谁就是答案
一致性标准Coherence Criterion:在文章中提到的实体要在KB中是相关的