码迷,mamicode.com
首页 > 其他好文 > 详细

Attention Is All You Need----Transformer

时间:2019-09-24 17:47:39      阅读:75      评论:0      收藏:0      [点我收藏+]

标签:www   nio   feed   原理   att   机器   you   orm   work   

  Attention Is All You Need

  Transformer

  模型整体架构

  Multi-head attention

  Self-Attention

  Self-Attention工作原理

  Self-Attention算法细节

  Step1

  Step2

  Step3&4

  Step5

  Step6

  Self-Attention的矩阵计算

  郑州妇科:http://www.zzyyrl.com/

  郑州妇科医院:http://www.zzyyrl.com/

  multi-headed 机制

  位置编码

  残差连接

  Decoder

  线性层和 softmax 层

  简述训练过程

  Transformer

  文章链接:

  《Attention Is All You Need》

  想要了解Transformer最好先了解一下seq2seq架构和Attention原理,感兴趣的可以点击以下链接:

  seq2seq模型

  Attention原理

  Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。更准确地讲,Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。

  一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建,作者的实验是通过搭建编码器和解码器各6层,总共12层的Encoder-Decoder,并在机器翻译中取得了BLEU值得新高。

  作者采用Attention机制的原因是考虑到RNN(或者LSTM,GRU等)的计算限制为是顺序的,也就是说RNN相关算法只能从左向右依次计算或者从右向左依次计算,这种机制带来了两个问题:

  时间片 t 时刻的计算依赖 t-1 时刻的计算结果,这样限制了模型的并行能力;

  顺序计算的过程中信息会丢失,尽管LSTM等门机制的结构一定程度上缓解了长期依赖的问题,但是对于特别长期的依赖现象,LSTM依旧无能为力。

  Transformer的提出解决了上面两个问题,首先它使用了Attention机制,将序列中的任意两个位置之间的距离是缩小为一个常量;其次它不是类似RNN的顺序结构,因此具有更好的并行性,符合现有的GPU框架。

Attention Is All You Need----Transformer

标签:www   nio   feed   原理   att   机器   you   orm   work   

原文地址:https://www.cnblogs.com/wode1/p/Need.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!