码迷,mamicode.com
首页 > 其他好文 > 详细

汉语语义消歧之 -- 词义消歧简介

时间:2014-12-05 23:53:42      阅读:273      评论:0      收藏:0      [点我收藏+]

标签:http   ar   使用   sp   on   数据   art   问题   bs   

词义消歧,亦称语义消歧,是计算语言学领域的基础性关键研究课题。

对于许多词语(特别是汉语词语和一部分专有名词),一个词有许多种意思。

 

例如专有名词"卡特",我们可以找到非常出名的两种含义:

1.  文斯·卡特(Vince Carter),美国职业篮球运动员

2.  詹姆斯·厄尔·卡特,1977年任美国第39任总统。

以及非常多的其他含义,包括:考古学家,斯诺克选手,记者,公司以及。。。LOL人物(汗)

如果查询的是"詹姆斯"之类的专有名词,则含义会变得更多,而且纷繁复杂。

除去专有名词,一些普通名词会有一些大相径庭的意思。

比如"仪表",同时表示了"人的外表"(appearance)、"各种测定仪"(meter)两种含义。

当然不可能我们在读到的时候随机一个含义(虽然有一定的概率随机到的含义是对的2333)

 

当一个人读到一个单词的时候,他是无意识或有意识的定向到该词一个特定意思上去的。

但是计算机,就不能够做到这一点(恩,废话),于是我们需要通过特定的好的算法来找到合适的意思,这就是消歧的作用。

好了词义消歧介绍完毕。(雾!其实是才开始的说。。。)

 

先说说词义消歧的重要性:"词义消歧是计算语言学领域的基础性关键研究课题,作为一个"中间任务",直接关系到信息检索、机器翻译、文本分类、语音识别等语言处理应用系统的效率和成败。然而,正如Ids和Veronis(1998)所指出的那样,虽然历经半个多世纪的努力,词义消歧研究并没有取得突破性进展 。现在10个春秋又逝去了,词义消歧依然是学人们孜孜以求攻克的难关 。"[1]

 

在这个词义消歧研究中,关涉到的三个主要问题是:资源、方法与评测。

资源,指每个词意思的来源,在研究中主要是语义词典和词义标注语料库。(我的研究是从百度百科上爬的资料)

------------未完待续--------------------

 

[1] : 引用自《词义消歧研究:资源 、方法与评测》 北京大学  吴云芳

汉语语义消歧之 -- 词义消歧简介

标签:http   ar   使用   sp   on   数据   art   问题   bs   

原文地址:http://www.cnblogs.com/rausen/p/4145184.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!