ELMO模型（Deep contextualized word representation）

时间：2018-12-04 11:29:17 阅读：1675 评论：0 收藏：0 [点我收藏+]

1 概述

　　word embedding 是现在自然语言处理中最常用的 word representation 的方法，常用的word embedding 是word2vec的方法，然而word2vec本质上是一个静态模型，也就是说利用word2vec训练完每个词之后，词的表示就固定了，之后使用的时候，无论新句子上下文的信息是什么，这个词的word embedding 都不会跟随上下文的场景发生变化，这种情况对于多义词是非常不友好的。例如英文中的 Bank这个单词，既有河岸的意思，又有银行的意思，但是在利用word2vec进行word embedding 预训练的时候会获得一个混合多种语义的固定向量表示。即使在根据上下文的信息能明显知道是“银行”的情况下，它对应的word embedding的内容也不会发生改变。

　　ELMO的提出就是为了解决这种语境问题，动态的去更新词的word embedding。ELMO的本质思想是：事先用语言模型在一个大的语料库上学习好词的word embedding，但此时的多义词仍然无法区分，不过没关系，我们接着用我们的训练数据（去除标签）来fine-tuning 预训练好的ELMO 模型。作者将这种称为domain transfer。这样利用我们训练数据的上下文信息就可以获得词在当前语境下的word embedding。作者给出了ELMO 和Glove的对比

　　技术分享图片

　　对于Glove训练出来的word embedding来说，多义词play，根据他的embedding 找出的最接近的其他单词大多数几种在体育领域，这主要是因为训练数据中包含play的句子大多数来源于体育领域，之后在其他语境下，play的embedding依然是和体育相关的。而使用ELMO，根据上下文动态调整后的embedding不仅能够找出对应的“表演”相同的句子，还能保证找出的句子中的play对应的词性也是相同的。接下来看看ELMO是怎么实现这样的结果的。

2 模型结构

　　ELMO 基于语言模型的，确切的来说是一个 Bidirectional language models，也是一个 Bidirectional LSTM结构。我们要做的是给定一个含有N个tokens的序列

　　$ {t_1, t_2, ..., t_N}$

　　其前向表示为：

　　技术分享图片

　　反向表示为：

　　技术分享图片

　　从上面的联合概率来看是一个典型的语言模型，前向利用上文来预测下文，后向利用下文来预测上文。假设输入的token是 $ x_k^{LM}$，在每一个位置 $k$ ，每一层LSTM 上都输出相应的context-dependent的表征 $\overrightarrow{h}_{k, j}^{LM}$。这里

　　$j = 1, 2, ..., L$， $L$表示LSTM的层数。顶层的LSTM 输出 $\overrightarrow{h}_{k, L}^{LM}$ ，通过softmax层来预测下一个 $token_{k+1}$。

　　对数似然函数表示如下：

　　技术分享图片