首页 > 其他好文 > 详细

Word2vec 浅谈

时间：2014-11-13 16:47:26 阅读：192 评论：0 收藏：0 [点我收藏+]

标签：神经网络机器学习 deep learning word2vec

本人还没有做过自然语言处理，但是基于Deep Learning 的关注，自然也了解了一些Word2vec的强大。

Word2vec 是google 在2013年提供的一款将词表征为实数值向量的高效工具。而Word2vec输出的词向量可用于做NLP 相关的工作，比如聚类、找同义词、词性分析等。Word2vec 大受欢迎的一个原因是其高效性， Tomas Mikolov 在[1] 中指出一个优化的单机版本一天可以训练上千亿词（汗！）。

关于词的概念，这里的词可以并不一定真的就是单词，完全可以是具有一定意义的单元块，比如国外音乐网站就用word2vec来训练用户的听歌记录，这里的单元块就是歌曲编号，如果用户对音乐类型的喜好是一致的，那么训练后就能找到与某个歌曲相似的歌曲，这样就能给用户进行推荐了，相信类似这样的例子还有很多。（关于这点思考：词可以使一个标号或者理解为一个类的对象！）

先上图：

bubuko.com,布布扣

bubuko.com,布布扣

个人感觉这个讲解的很详细~

注意：1，输入为一个窗口的待预测上下文

2. 输入层Wj 是维度为K的列向量，（syn0 编码？）如有 N个输入词，则输入大小为k*N

3. 隐层 Tk 是输入层Wj 的加权，隐层大小为N*k

4. 输出层的叶节点是语料里的词，如红楼梦分词后的独立词

5. 叶节点有唯一的编码，从根节点开始算第一层（二叉树构建算法 Huffman树）

理解很浅显~

以后持续更新~

参考：

[1]Distributed Representations of Words and Phrases and their Compositionality （经典论文）

[2] Felven----再谈word2vec (Felven word2vec 系列很实践)

[3] Felven----关键词聚类

[4] Felven-----红楼梦人物关系

[5] word2vec傻瓜剖析（个人觉得还是先看看Felven的实验后，再看这个比较有感觉点！）

[6] 有道的word2vec 讲解（非常详细！几个DL大牛的关系图很有意思！）

[7] word2vec 代码讲解，英文的！

Word2vec 浅谈

标签：神经网络机器学习 deep learning word2vec

原文地址：http://blog.csdn.net/hanzihan123/article/details/41078835

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！