码迷,mamicode.com
首页 > 其他好文 > 详细

word2vec----negative sampling

时间:2018-05-12 14:21:24      阅读:144      评论:0      收藏:0      [点我收藏+]

标签:bubuko   上下   com   技术   辅助   nbsp   分享   就是   alt   

一、模型

随机负采样方法,是后来对word2vec输出层做的一种改进,舍弃复杂的层次分类和huffman树

在已知词w上下文的情况下,对应的输出正样本就是w,负样本就是剩下的所有词,非常多,所以我们用某种方法,采样很小的部分,集合为NEG(w)。每个词u都有自己的辅助参数θ

我们希望最大化的函数为,正样本的概率尽可能大,负样本的概率尽可能小

技术分享图片

对它取对数就得到损失函数

 

二、负采样方法

采样方法有很多,大致要求是,高频词被采到的概率大一些,因此叫“带权采样问题”。

 

word2vec----negative sampling

标签:bubuko   上下   com   技术   辅助   nbsp   分享   就是   alt   

原文地址:https://www.cnblogs.com/mimandehuanxue/p/9024318.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!