首页 > Web开发 > 详细

Deep Captioning with Multimodal Recurrent Neural Networks ( m-RNN )

时间：2019-08-18 19:56:35 阅读：161 评论：0 收藏：0 [点我收藏+]

标签：http 变换信息循环 mod apt 函数 htc 输出

作者提出了一种多模态循环神经网络(AlexNet / VGGNet +多模式层+ RNN)，用CNN提取图像特征，单词经过两层词输入到RNN中，最后将单词特征，图像特征，以及RNN的hidden一起输入到多模态层，经过Softmax生成下一个词的概率分布。RNN主要是为了保存句子前面的特征。
- 加入两层Embedding，比单层更有效学习单词的稠密表示
- 不使用循环层来存储视觉信息
- 图像特征与句子描述中的每个单词一起被输入到m-RNN模型

Key Point

大多数句子 - 图像多模态模型使用预先计算的词嵌入向量作为其模型的初始化，相比之下，作者随机初始化他们的单词嵌入层并从训练数据中学习它们。实验效果更好
通过对Flickr8K数据集的交叉验证，对超参数(如层尺寸和非线性激活函数的选择)进行调优，然后在所有的实验中进行固定。
以前的工作：将图像描述视作检索任务，首先提取句子和图像特征，将其嵌入共同的语义空间，计算图像和句子之间的距离。生成图像时，从句子数据库中检索距离最小的句子作为描述。这种方法不能自动生成丰富的描述
Benchmark datasets for Image Captioning: IAPR TC-12 ( Grubinger et al.(2006) ), Flickr8K ( Rashtchian et al.(2010) ), Flickr30K ( Young et al.(2014) ) and MS COCO ( Lin et al.(2014) ).

Model

技术图片

技术图片

input word 通过两个word embedding层，生成稠密向量表示\(w(t)\)，\(w(t)\) 同时被传递给 RNN 和 Multimodal
RNN 所做变换为\(r(t)=f_2(U_r\cdot{r(t-1)+w(t)})\) $技术图片$ ，其中 $技术图片$ 是 \(t\) 时刻循环层的输出，\(f_2\) 是ReLU函数
右侧绿框中，输入图像经过 CNN 生成特征向量\(I\) ，\(I\) 与一并输入multimodal。multimodal 所做变换是 \(m(t)=g_2(V_m\cdot{w(t)+V_r\cdot{r(t)}+I})\),\(g_2(x)=1.7159\cdot{tanh(\frac{2}{3}x)}\)
\(m(t)\) 输入 softmax 层生成概率分布。至此，由input word 产生了一个 next word

Deep Captioning with Multimodal Recurrent Neural Networks ( m-RNN )

标签：http 变换信息循环 mod apt 函数 htc 输出

原文地址：https://www.cnblogs.com/doragd/p/11373469.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！