深度学习之seq2seq模型以及Attention机制

时间：2017-11-14 19:38:57 阅读：661 评论：0 收藏：0 [点我收藏+]

RNN，LSTM，seq2seq等模型广泛用于自然语言处理以及回归预测，本期详解seq2seq模型以及attention机制的原理以及在回归预测方向的运用。

1. seq2seq模型介绍

　　seq2seq模型是以编码（Encode）和解码（Decode）为代表的架构方式，seq2seq模型是根据输入序列X来生成输出序列Y，在翻译，文本自动摘要和机器人自动问答以及一些回归预测任务上有着广泛的运用。以encode和decode为代表的seq2seq模型，encode意思是将输入序列转化成一个固定长度的向量，decode意思是将输入的固定长度向量解码成输出序列。其中编码解码的方式可以是RNN,CNN等。

　　技术分享

图1. encode和decode框架

上图为seq2seq的encode和decode结构，采用CNN/LSTM模型。在RNN中，当前时间的隐藏状态是由上一时间的状态和当前时间的输入x共同决定的，即

【编码阶段】

　　得到各个隐藏层的输出然后汇总，生成语义向量

　　也可以将最后的一层隐藏层的输出作为语义向量C

【解码阶段】　

　　这个阶段，我们要根据给定的语义向量C和输出序列

　　也可以写做

　　其中g（）代表的是非线性激活函数。在RNN中可写成 y_t=g(y_t_?₁,h_t,C) ，其中h为隐藏层的输出。

以上就是seq2seq的编码解码阶段，seq2seq模型的抽象框架可描述为下图：

技术分享

图2. seq2seq抽象框架图

2.Attention机制在seq2seq模型中的运用

2.1 自然语言处理中的Attention机制

　　由于encoder-decoder模型在编码和解码阶段始终由一个不变的语义向量C来联系着，编码器要将整个序列的信息压缩进一个固定长度的向量中去。这就造成了（1）语义向量无法完全表示整个序列的信息，（2）最开始输入的序列容易被后输入的序列给覆盖掉，会丢失许多细节信息。在长序列上表现的尤为明显。

　　Attention模型的引入：

　　相比于之前的encoder-decoder模型，attention模型最大的区别就在于它不在要求编码器将所有输入信息都编码进一个固定长度的向量之中。相反，此时编码器需要将输入编码成一个向量的序列，而在解码的时候，每一步都会选择性的从向量序列中挑选一个子集进行进一步处理。这样，在产生每一个输出的时候，都能够做到充分利用输入序列携带的信息。而且这种方法在翻译任务中取得了非常不错的成果。

　　下图为seq2seq模型加入了Attention注意力机制

技术分享

图3. Attention注意力机制的seq2seq模型

【seq2seq的attention解码过程】

　　现在定义条件概率：

　　上式

　　关键问题是语义向量 C 怎么得到？　　

　　c_i是由编码时的隐藏向量序列

　　将隐藏向量序列按权重相加，表示在生成第j个输出的时候的注意力分配是不同的。

　　s_i?1先跟每个

公式汇总：技术分享

【Attention机制类别】

　　Attention机制大的方向可分为 Soft Attention 和 Hard Attention 。

Soft Attention通常是指以上我们描述的这种全连接(如MLP计算Attention 权重)，对每一层都可以计算梯度和后向传播的模型；不同于Soft attention那样每一步都对输入序列的所有隐藏层hj(j=1….Tx) 计算权重再加权平均的方法，Hard Attention是一种随机过程，每次以一定概率抽样，以一定概率选择某一个隐藏层 hj*，在估计梯度时也采用蒙特卡罗抽样Monte Carlo sampling的方法。

技术分享

图5. Soft Attention 模型

技术分享

图6. Hard Attention

考虑到计算量，attention的另一种替代方法是用强化学习（Reinforcement Learning）来预测关注点的大概位置。这听起来更像是人的注意力，这也是Recurrent Models of Visual Attention文中的作法。然而，强化学习模型不能用反向传播算法端到端训练，因此它在NLP的应用不是很广泛（我本人反而觉得这里有突破点，数学上的不可求解必然会得到优化，attention model在RL领域的应用确实非常有趣）

参考资料：http://blog.csdn.net/u014595019/article/details/52826423

　　　　　http://blog.csdn.net/wuzqChom/article/details/75792501

　　　　　http://blog.csdn.net/mpk_no1/article/details/72862348

　　　　　http://www.deepnlp.org/blog/textsum-seq2seq-attention/

　　　　　http://blog.csdn.net/malefactor/article/details/50550211

　　　　　http://blog.csdn.net/xbinworld/article/details/54607525

2.2 计算机视觉中的Attention机制

未完待续...

http://blog.csdn.net/sinat_33761963/article/details/53521206　　　　　

深度学习之seq2seq模型以及Attention机制

标签：深度选择性机器人内容覆盖完全 center 过程 review

原文地址：http://www.cnblogs.com/DLlearning/p/7834018.html