Benchmark datasets for Image Captioning: IAPR TC-12 ( Grubinger et al.(2006) ), Flickr8K ( Rashtchian et al.(2010) ), Flickr30K ( Young et al.(2014) ) and MS COCO ( Lin et al.(2014) ).
Model
input word 通过两个word embedding层,生成稠密向量表示\(w(t)\),\(w(t)\) 同时被传递给 RNN 和 Multimodal