用于文本分类的RNN-Attention网络

时间：2018-08-20 12:26:57 阅读：239 评论：0 收藏：0 [点我收藏+]

用于文本分类的RNN-Attention网络

https://blog.csdn.net/thriving_fcl/article/details/73381217

Attention机制在NLP上最早是被用于seq2seq的翻译类任务中，如Neural Machine Translation by Jointly Learning to Align and Translate这篇文章所说。

之后在文本分类的任务中也用上Attention机制，这篇博客主要介绍Attention机制在文本分类任务上的作用，与seq2seq中使用的可能会略有不同，主要参考的论文是Hierarchical Attention Networks for Document Classification。这里的层次Attention网络并不是只含有Attention机制的网络，而是在双向RNN的输出后加了Attention机制，层次表现在对于较长文本的分类，先将词向量通过RNN+Attention表示为句子向量，再将句子向量通过RNN+Attention表示为文档向量。两部分的Attention机制是一样的，这篇博客就不重复说明了。

一、Attention 的作用

在RNN的文本分类模型中，可以把RNN看成一个encoder，将需要被分类的文本表示为一个dense vector，再使用全连接层与softmax输出各类别的概率。

在具体的文本的表示上，可以将RNN最后一个时刻的输出作为文本的表示，也可以综合考虑每个时刻的的输出，将它们合并为一个向量。在tagging与classication的任务中常用双向RNN(下文写作BIRNN)，每个时刻的输出向量可以理解为这个时刻的输入词在上下文的语境中对当前任务的一个贡献。BIRNN如下图所示

技术分享图片

根据人类的阅读习惯进行思考，我们在阅读的时候，注意力通常不会平均分配在文本中的每个词。再回到上面的文本表示，如果直接将每个时刻的输出向量相加再平均，就等于认为每个输入词对于文本表示的贡献是相等的，但实际情况往往不是这样，比如在情感分析中，文本中地名、人名这些词应该占有更小的权重，而情感类词汇应该享有更大的权重。

所以在合并这些输出向量时，希望可以将注意力集中在那些对当前任务更重要的向量上。也就是给他们都分配一个权值，将所有的输出向量加权平均。假设输出向量为 $h_{t}$