之前以为直接使用contrib.text.embedding
就可以完成学习,后面发现和paper的意思不匹配,这一层是需要单独获取的。
先附上可以参考的链接:
可以了解到,Embedding是要产生一个矩阵,通过行引索输出连续空间变量,并且空间的维数可以人为设定。关键处是要使词之间的上下文关系
程度由欧氏距离指示。
但对于如何得到这样的矩阵,找到的描述确实语焉不详(比如链接2
看起来条条有理,但却使人无处着力,尤其是那几张图配合着文段描述真是使人不着头脑) ,另外看到一篇贴上自己分析google的cpp的注释。自动求导大行其道的当下,很难说不通过这种方式实现的方法有什么实用价值。 还是给我找到了在MXNet中的实现过程:
https://github.com/apache/incubator-mxnet/tree/master/example/nce-loss
所有需要学习的参数只有一个矩阵,并没有链接1
说的抽取中间数据的思想。实际也可想见,对于实现目标,只需要想办法通过损失函数,使出于同一上下文中的词向量(稠密表示后的)接近就好了;如果从加快收敛角度考虑,进行negative 采样,每次对不在同一上下文中的向量进行惩罚。
# 优化的框架,需要有迭代器(DataIterWords@text8_data.py )的支持才有注释中的效果
# wordvec_net.py
# 对中心词作为预测目标进行优化
def get_word_net(vocab_size, num_input):
data = mx.sym.Variable(‘data‘)
label = mx.sym.Variable(‘label‘)
label_weight = mx.sym.Variable(‘label_weight‘) # 在迭代器的输出中,首个元素是中心词,其余是负样本
embed_weight = mx.sym.Variable(‘embed_weight‘) # 首个元素是1,其余是0,logistic回归作为损失函数
data_embed = mx.sym.Embedding(data=data, input_dim=vocab_size,
weight=embed_weight,
output_dim=100, name=‘data_embed‘)
datavec = mx.sym.SliceChannel(data=data_embed,
num_outputs=num_input,
squeeze_axis=1, name=‘data_slice‘)
pred = datavec[0]
for i in range(1, num_input):
pred = pred + datavec[i] # 对上下文进行求和, 按照原文的意思
return nce_loss(data=pred,
label=label,
label_weight=label_weight,
embed_weight=embed_weight,
vocab_size=vocab_size,
num_hidden=100)
# nce.py
def nce_loss(data, label, label_weight, embed_weight, vocab_size, num_hidden):
label_embed = mx.sym.Embedding(data=label, input_dim=vocab_size,
weight=embed_weight,
output_dim=num_hidden, name=‘label_embed‘) # 对 label引索
data = mx.sym.Reshape(data=data, shape=(-1, 1, num_hidden))
pred = mx.sym.broadcast_mul(data, label_embed) # 求点积
pred = mx.sym.sum(data=pred, axis=2)
return mx.sym.LogisticRegressionOutput(data=pred,
label=label_weight) # 向中心词靠近,远离上下文以外的词
迭代器设计巧妙,把用到的程序放在这:
# text8_data.py
def _load_data(name):
buf = open(name).read()
tks = buf.split(‘ ‘)
vocab = {}
freq = [0]
data = []
for tk in tks:
if len(tk) == 0:
continue
if tk not in vocab:
vocab[tk] = len(vocab) + 1
freq.append(0)
wid = vocab[tk]
data.append(wid)
freq[wid] += 1
negative = []
for i, v in enumerate(freq):
if i == 0 or v < 5:
continue
v = int(math.pow(v * 1.0, 0.75))
negative += [i for _ in range(v)] # 词的频数高,连接的负样本数量应该更多,见下文讨论
return data, negative, vocab, freq
class DataIterWords(mx.io.DataIter):
def __init__(self, name, batch_size, num_label):
super(DataIterWords, self).__init__()
self.batch_size = batch_size
self.data, self.negative, self.vocab, self.freq = _load_data(name)
self.vocab_size = 1 + len(self.vocab)
print("Vocabulary Size: {}".format(self.vocab_size))
self.num_label = num_label
self.provide_data = [(‘data‘, (batch_size, num_label - 1))]
self.provide_label = [(‘label‘, (self.batch_size, num_label)),
(‘label_weight‘, (self.batch_size, num_label))]
def sample_ne(self):
return self.negative[random.randint(0, len(self.negative) - 1)]
def __iter__(self):
batch_data = []
batch_label = []
batch_label_weight = []
start = random.randint(0, self.num_label - 1)
for i in range(start, len(self.data) - self.num_label - start, self.num_label):
context = self.data[i: i + self.num_label // 2] \
+ self.data[i + 1 + self.num_label // 2: i + self.num_label] # 以中心词作为预测目标
target_word = self.data[i + self.num_label // 2]
if self.freq[target_word] < 5:
continue
target = [target_word] + [self.sample_ne() for _ in range(self.num_label - 1)]
target_weight = [1.0] + [0.0 for _ in range(self.num_label - 1)] # 负样本优化目标为0
batch_data.append(context)
batch_label.append(target)
batch_label_weight.append(target_weight)
if len(batch_data) == self.batch_size:
data_all = [mx.nd.array(batch_data)]
label_all = [mx.nd.array(batch_label), mx.nd.array(batch_label_weight)]
data_names = [‘data‘]
label_names = [‘label‘, ‘label_weight‘]
batch_data = []
batch_label = []
batch_label_weight = []
yield SimpleBatch(data_names, data_all, label_names, label_all)
这里想说的是,负样本的生成与频数关联的原因。虽然每一个batch中,负样本的数量是一定的(都是batch_size x (label_num-1) ),但由于是均匀采样(见sample_ne
),高频词对应的负样本将有更大概率被抽到。
对一个高频词而言,其在优化中出现的次数会比较多,如果没有匹配数量的负样本,按照神经网络优化的弊端,结果模型会偏向比重大的,可能的结果就是把这个词放在了带有权重的中心位置。或者说,结果模型会有更大部分只是在反应输入样本的统计关系,而不是上下文关系。