码迷,mamicode.com
首页 > 其他好文 > 详细

<<Natural Language Inference over Interaction Space >>论文速读

时间:2018-10-25 18:00:27      阅读:311      评论:0      收藏:0      [点我收藏+]

标签:blog   display   site   flatten   分类   参数   bubuko   公式   extra   

模型结构

code :https://github.com/YichenGong/Densely-Interactive-Inference-Network

首先是模型图:

技术分享图片

 

Embedding Layer 

词嵌入+字嵌入+syntactical features (句法特征) 拼接。

词嵌入:glove pre-trained, 可训练

字嵌入:conv1d +maxpoling ,解决oov问题,(P,H公用同一个卷积参数)
syntactical features: pos tagging+binary exact match (EM) feature  的onehot

Encoding Layer 

P H经过2层highway network 得到 p*d 、h*d维的矩阵,再经过self-attention,self-att公式如下:

技术分享图片

 

 

技术分享图片

 

~P跟P同时经过fuse-gate,fuse-gate可以看做是skip connection .公式如下

技术分享图片

技术分享图片

 

intra-attention and fuse gate 时 ,P H的参数不共享。但是参数权重的差异会加惩罚,为了保证PH可以平行的学习相似性。

技术分享图片

 


 

Interation Layer 

 

技术分享图片

 

 

Feature Extraction  Layer 


利用denseNet进行特征提取,resNet 也可以,但是参数太多。

没有用BN,

激活函数relu。具体细节看代码。

Output Layer 

uses a linear layer and flattened 进行分类、

 

感想

0、词向量的表示上,

1、DenseNet,

2、fuse-gate,

 

 

 技术分享图片

 

参考:

 

https://blog.csdn.net/xiayto/article/details/81247461

<<Natural Language Inference over Interaction Space >>论文速读

标签:blog   display   site   flatten   分类   参数   bubuko   公式   extra   

原文地址:https://www.cnblogs.com/zle1992/p/9851275.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!