码迷,mamicode.com
首页 > 其他好文 > 详细

【Deep Learning】genCNN: A Convolutional Architecture for Word Sequence Prediction

时间:2015-06-29 22:21:28      阅读:244      评论:0      收藏:0      [点我收藏+]

标签:

作者:Mingxuan Wang,李航,刘群
单位:华为、中科院
时间:2015
发表于:acl 2015
文章下载:http://pan.baidu.com/s/1bnBBVuJ

主要内容:
用deep learning设计了一种语言模型,能够根据之前“所有”的历史来预测当前词的条件概率。用语言模型迷惑度衡量、用机器翻译衡量,该模型都比baseline(5-gram、RNN、等)好

具体内容:

  1. 之前用deep learning在语言模型上的进展是:RNN和LSTM
    参考的工具包:
    RNN – http://rnnlm.org/
    LSTM – https://github.com/lisa-groundhog/GroundHog

  2. 本文作者的实现方式:
    (1)用alpha-cnn来模拟当前词比较近的历史,约之前30个词;用beta-cnn来递归的模拟所有之前的历史。beta-cnn的输出是其他beta-cnn以及alpha-cnn的输入。网络结构如下:
    (2)用了word2vec作为词语的输入,两层隐含层,用gate代替max pooling,最后输出层是softmax层
    (3)同标准cnn不同的是:标准cnn在局部共享权重,本文既有共享的权重,也有不共享的权重
    (4)训练方式是最大化训练语料中句子的概率

  3. 实验结果(困惑度)
    5-gram KN smoothing: 270
    RNN:223
    LSTM:206
    本文方法:180

另外,训练时间比较长,1M句子,用了GPU还训练了2天。

版权声明:本文为博主原创文章,未经博主允许不得转载。

【Deep Learning】genCNN: A Convolutional Architecture for Word Sequence Prediction

标签:

原文地址:http://blog.csdn.net/xceman1997/article/details/46686497

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!