标签:info src 输出 bsp 需求 一个 设计 img love
一、模型输入输出
输入是2组词向量,中心词向量W和上下文词向量W波浪线,输出是Xij的对数值
二、模型设计思想
1.W和W波浪线实际上应该是平等的,因为1个词在某些样本中是中心词,而在别的样本中是上下文词,都是同一个词
2.i,j,k3个词的词向量,应该能决定这个ratio,因为ratio是有意义的。
于是下面的定义,可以满足上面的设计需求
三、损失函数
损失函数采用加权MSE
这里f(x)的设计,有3点考虑:
1.当x趋近于0时,由于log x的平方趋于无穷大,因此f(x)必须有较大的导数快速趋近于0,从而保证J不爆炸
2.f(x)需要是递增的,从而保证罕见的Xij没有过分重要
3.f(x)在x特别大时,应该相对不能太大,保证高频的共现没有过分重要
综上,f(x)被设计为:
标签:info src 输出 bsp 需求 一个 设计 img love
原文地址:https://www.cnblogs.com/mimandehuanxue/p/9025341.html