ACL2019论文阅读

时间：2020-04-11 20:30:33 阅读：91 评论：0 收藏：0 [点我收藏+]

Integrating Weakly Supervised Word Sense Disambiguation into Neural Machine Translation

一篇关于机器翻译的论文，目的是是将词义信息加到机器翻译模型中，以此缓解机器翻译模型对于多义词翻译不准确的问题。

引入的方法很简单，输入机器翻译模型的word emebdding将由常规的word embedding和词义embedding拼接而成，让模型对单词的词义敏感。问题有两个：

1 每个单词不同词义embedding从哪里来

2 对于某一个token，如何确定使用哪个词义embedding

对于第一个问题，该论文通过wordnet获取单词w的词义描述以及使用该词的example，将词义描述或者example里的单词进行embedding，再取平均就作为每个词义的初始embedding。对于词义描述和example处理方式略有不同。词义描述使用其中所有单词的embedding的平均，而example则是选择单词w左右窗口内的词的embedding做平均，原因是example可能是很长的句子，把这个句子所有的词考虑进来会带来很多噪音。有的词义的初始centroid embedding，接下来就是对词义进行聚类进而达到词义消歧的目的。聚类的方法论文中采用的三种，例如k-means等等。首先会在源语言句子中抽取单词w的片段，例如预设一个窗口，这个窗口内的单词（除去停用词）的emebdding的平均作为w的候选词义embedding。然后根据初始centroid embeddings对所有候选词义embedding做聚类。聚类的k可有wordnet中对于单词w保存的词义个数来确定。

对于第二个问题，就是简单的和对应的多个词义embedding做相似度计算，选择最相似的。也可以通过相似性算的每个词义的权重，再根据这个权重对所有词义embedding做带权平均。

ACL2019论文阅读

标签：聚类简单 amp 机器第一个 tran 接下来信息 ISE

原文地址：https://www.cnblogs.com/zhuangliu/p/12681645.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行