标签:led 信息 todo 语言 att node img 提高 不同
作者进行了普通的nmt 以及加入了attention 机制的nmt两组实验
我使用了公司四核(4*24G) RAM 的 Tesla M40 显卡 进行train & infer(使用 nvidia-smi 查看nvidia 显卡信息)
实验结果表明在训练数据较少的情况下,使用attention 的nmt 的翻译质量还是比不加attention的翻译强不少的,这个结果是
通过将二者的翻译结果分别于参考翻译进行粗略得到的,当然使用定量的bleu指标也可以得到一样的结论,加入attention的nmt bleu
score 要比普通的nmt 高不少。具体结果见下图1,2:
直观看上去,确实是attention nmt 的翻译质量更胜一筹。
教程中给出的第二个实验是德语到英语的翻译(WMT German-English)
FailedPreconditionError (see above for traceback):
Attempting to use uninitialized value dynamic_seq2seq/decoder/multi_rnn_cell/cell_1/basic_lstm_cell/kernel
[[Node: dynamic_seq2seq/decoder/multi_rnn_cell/cell_1/basic_lstm_cell/kernel/read = Identity[T=DT_FLOAT, _device="/job:localhost/replica:0/task:0/device:GPU:0"]
(dynamic_seq2seq/decoder/multi_rnn_cell/cell_1/basic_lstm_cell/kernel)]]
de-en infer fail 这个问题暂时没有找到原因。
de-en train from stratch 没有问题,但是因为训练数据巨大,所以应该需要训练很久(几天吧)
text summary 在nmt的框架下,可以看做是单语言的简化(一般的翻译是两个语言之间),原文是source,
summary 是target
--src=ori --tgt=sum
其余的参数类似指定
标签:led 信息 todo 语言 att node img 提高 不同
原文地址:https://www.cnblogs.com/lyrichu/p/10325218.html