论文阅读总结：UniLM(Unified Language Model Pre-training for Natural Language Understanding and Generation)

时间：2019-12-29 00:23:06 阅读：319 评论：0 收藏：0 [点我收藏+]

概述：

UniLM是微软研究院在Bert的基础上，最新产出的预训练语言模型，被称为统一预训练语言模型。它可以完成单向、序列到序列和双向预测任务，可以说是结合了AR和AE两种语言模型的优点，Unilm在抽象摘要、生成式问题回答和语言生成数据集的抽样领域取得了最优秀的成绩。

一、AR与AE语言模型

AR: Aotoregressive Lanuage Modeling，又叫自回归语言模型。它指的是，依据前面(或后面)出现的tokens来预测当前时刻的token，代表模型有ELMO、GTP等。

技术图片

AE:Autoencoding Language Modeling，又叫自编码语言。通过上下文信息来预测当前被mask的token，代表有BERT ，Word2Vec(CBOW)。

技术图片

AR 语言模型：

AE 语言模型：

缺点：由于训练中采用了 [MASK] 标记，导致预训练与微调阶段不一致的问题。此外对于生成式问题， AE 模型也显得捉襟见肘，这也是目前 BERT 为数不多实现大的突破的领域。
优点：能够很好的编码上下文语义信息，在自然语言理解(NLU)相关的下游任务上表现突出。

原文地址：https://www.cnblogs.com/gczr/p/12113434.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行