码迷,mamicode.com
首页 > 其他好文 > 详细

【deep learning学习笔记】Distributed Representations of Sentences and Documents

时间:2015-05-31 18:29:02      阅读:163      评论:0      收藏:0      [点我收藏+]

标签:

很久以前关注过一段时间word2vec,最近比较好奇doc2vec,找来资料看看。


时间:2014
作者:Mikolov (word2vec的作者)
发表于:icml
原文件:http://pan.baidu.com/s/1bnm7COB

主要内容:
继写出word2vec之后,接下来的问题是:能否在更大的语言单位上,如:短语、句子、段落、篇章,上面继续word2vec的工作,将这些语言单位用实属向量的方式表示出来。

思路:
作者思路很直接,即在word2vec模型的基础上,将神经网络的偏置b用一个向量来代替,参与训练,在获得每个词语的实属向量的同时,也获得这个代替偏置的向量。作者用这个向量来作为当前上下文content的表示向量。整个训练方式和word2vec基本一致。

实验:
作者一共写了两个实验,我看了第一个。是判断语句的情感倾向性的。关键在于作者如何使用他训练出来的phrasevec。使用方式如下:对目标语句进行分词,截取sub-phrase,每个sub-phrase对应一个作者训练出来的phrasevec。用这些phrasevec,结合LR模型,进行分类,从而预测目标语句的情感倾向。从结果上看,无论是二值分类(正面情感 vs 负面情感)还是多值分类,相比传统benchmark,作者的方法都有提升。

完。

转载请注明出处:http://blog.csdn.net/xceman1997/article/details/46290365



【deep learning学习笔记】Distributed Representations of Sentences and Documents

标签:

原文地址:http://blog.csdn.net/xceman1997/article/details/46290365

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!