word2vec——高效word特征求取

时间：2015-06-07 17:33:51 阅读：480 评论：0 收藏：0 [点我收藏+]

标签：word2vec 语言模型特征提取

继上次分享了经典统计语言模型，最近公众号中有很多做NLP朋友问到了关于word2vec的相关内容，本文就在这里整理一下做以分享。本文分为

概括word2vec
相关工作
模型结构
Count-based方法 vs. Directly predict

几部分，暂时没有加实验章节，但其实感觉word2vec一文中实验还是做了很多工作的，希望大家有空最好还是看一下~

概括word2vec

要解决的问题：在神经网络中学习将word映射成连续（高维）向量，其实就是个词语特征求取。

特点：
1. 不同于之前的计算cooccurrence次数方法，减少计算量
2. 高效
3. 可以轻松将一个新句子/新词加入语料库

主要思想：神经网络语言模型可以用两步进行训练：1. 简单模型求取word vector; 在求取特征向量时，预测每个词周围的词作为cost 2. 在word vector之上搭建N-gram NNLM，以输出词语的概率为输出进行训练。

模型结构

首先回顾NNLM，RNNLM，然后来看Word2Vec中提出的网络——CBOW，skip-gram Model。

1 . NNLM[3]

NNLM的目标是在一个NN里，求第t个词的概率，即

其中f是这个神经网络, 包括 input，projection， hidden和output。将其分解为两个映射：C和g，C是word到word vector的特征映射(通过一个|V|*D的映射矩阵实现)，也称作look-up table， g是以word特征为输入，输出|V|个词语概率的映射：

如下图所示：
输入： n个之前的word（其实是他们的在词库V中的index）
映射：通过|V|*D的矩阵C映射到D维
隐层：映射层连接大小为H的隐层
输出：输出层大小为|V|，表示|V|个词语的概率

用parameter个数度量网络复杂度，则这个网络的复杂度为：

O=N?D+N?D?H+H?V $O = N*D + N*D*H + H*V$

其中复杂度最高的部分为H*V, 但通常可以通过hierarchical softmax或binary化词库编码将|V|降至

log2V $log_2V$ ，这样计算瓶颈就在于隐层

N?D?H $N*D*H$ 了。在word2vec中，为了避免隐层带来的高计算复杂度而去掉了隐层。

2 . RNNLM

RNN在语言模型上优于其他神经网络，因为不用像上面NNLM中的输入要定死前N个词的N。（具体RNN的结构我会在下篇中讲）简单地说， RNN就是一个隐层自我相连的网络，隐层同时接收来自t时刻输入和t-1时刻的输出作为输入，这使得RNN具有短期记忆能力，所以RNNLM的复杂度为：

O=H?H+H?V $O = H*H + H*V$

同样地，其中

H?V $H*V$ 也可以降至

log2V $log_2V$ ，瓶颈就在于

H?H $H*H$ 了。

由于复杂度最大的部分都在hidden layer, 而且我们的中级目标是提特征（而不是生成语言模型），文中就想能不能牺牲hidden layer的非线性部分，从而高效训练。这也是Word2vec中速度提升最多的部分。这也就是一个Log linear model。所以本质上， word2vec并不是一个深度模型。文中提出了两种log linear model，如下面所述。

3 . Proposed Method 1 - Continuous Bag-of-Words(CBOW) Model

CBOW的网络结构和NNLM类似，变化：

CBOW去掉了NNLM的非线性部分
CBOW不考虑word之间的先后顺序，一起放进bag，也就是在上面NNLM的projection层将映射后的结果求和/求平均（而非按照先后顺序连接起来）
输入不止用了历史词语，还用了未来词语。即，用t-n+1…t-1,t+1,…t+n-1的word作为输入，目标是正确分类得到第t个word。
PS: 实验中得到的best n=4

CBOW的复杂度为：

O=N?D+D?log2V $O = N*D + D*log_2V$

CBOW结构图：

3 . Proposed Method 2 - Continuous Skip-gram Model

与CBOW相反，Continuous Skip-gram Model不利用上下文。其输入为当前word，经过projection的特征提取去预测该word周围的c个词，其cost function为：

如下图所示。这里c增大有利于模型的完备性，但过大的c可能造成很多无关词语相关联，因此用随机采样方法，远的词少采，近的多采。

比如定义最大周围距离为C，则对于每个词w(t)，就选择距离为R=range(1,C)，选前后各R个词作为预测结果。
所以，Continuous Skip-gram Model的复杂度为：

O=2C?(D+D?log2V) $O = 2C*(D + D*log_2V)$

具体来说，最简单的情况下， $P(w_{t+j}|w_t)$ 的表达式可以为：

其中v和v’分别为输入和输出中的word特征向量。所以说， word2vec方法本质上是一个动态的逻辑回归。

Count-based方法 vs. Directly predict

最后我们看一下之前我们讲过的几个基于统计的传统语言模型与word2vec这种直接预测的方法的比较：

图片摘自Stanford CS244。

参考文献：

NNLM: Y. Bengio, R. Ducharme, P. Vincent. A neural probabilistic language model, JMLR 2003
类似工作：T. Mikolov. Language Modeling for Speech Recognition in Czech, Masters thesis
类似工作：T. Mikolov, J. Kopecky′, L. Burget, O. Glembek and J. Cˇ ernocky′. Neural network based language models for higly inflective languages, In: Proc. ICASSP 2009.]
类似工作：Pennington J, Socher R, Manning C D. Glove: Global vectors for word representation[J]. Proceedings of the Empiricial Methods in Natural Language Processing (EMNLP 2014), 2014, 12.

word2vec——高效word特征求取

标签：word2vec 语言模型特征提取

原文地址：http://blog.csdn.net/abcjennifer/article/details/46397829

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

word2vec——高效word特征求取

概括word2vec

相关工作

模型结构

Count-based方法 vs. Directly predict