原始论文:http://www-personal.umich.edu/~ronxin/pdf/w2vexp.pdf
之前学习Word2vec时,脱离了神经网络,这周补充了下相关知识,打算之后再
看下源码,加深自己的理解。...
分类:
其他好文 时间:
2015-03-27 22:25:04
阅读次数:
468
最近试了一下Word2Vec,GloVe以及对应的python版本gensim word2vec和python-glove,就有心在一个更大规模的语料上测试一下,自然而然维基百科的语料进入了视线。维基百科官方提供了一个很好的维基百科数据源:https://dumps.wikimedia.org,可以...
分类:
编程语言 时间:
2015-03-16 22:48:21
阅读次数:
348
关于神经网络训练的部分还没有看完,之后会陆续补全。
word2vec源代码:
// Copyright 2013 Google Inc. All Rights Reserved.
//
// Licensed under the Apache License, Version 2.0 (the "License");
// you may not use this file except...
分类:
其他好文 时间:
2015-03-06 15:53:17
阅读次数:
181
1.向量旋转将一个具有n个元素的一维向量左旋i位。1.1使用i个额外空间void left_rotate(string &s,int i){ string s2(s,0,i);//将前i个字符复制到s2 int j=0; //将剩余n-i个元素左移i个位置 for(;i ...
分类:
其他好文 时间:
2015-03-05 14:25:06
阅读次数:
203
word2vec是Google在2013年提出的一款开源工具,其是一个Deep Learning(深度学习)模型(实际上该模型层次较浅,严格上还不能算是深层模型,如果word2vec上层再套一层与具体应用相关的输出层,如Softmax,便更像是一个深层模型),它将词表征成实数值向量,采用CBOW(Continuous Bag-Of-Words Model,连续词袋模型)和Skip-Gram(Con...
分类:
Windows程序 时间:
2015-02-04 23:30:43
阅读次数:
1071
word2vec阅读笔记 word2vec使用指导 用word2vec 跑搜狗SogouCS语料 - 大小4G | 6.8 亿词长 | 57万词汇
分类:
其他好文 时间:
2015-01-15 00:12:20
阅读次数:
219
前言 本文介绍机器学习分类算法中的朴素贝叶斯分类算法并给出伪代码,Python代码实现。词向量 朴素贝叶斯分类算法常常用于文档的分类,而且实践证明效果是挺不错的。 在说明原理之前,先介绍一个叫词向量的概念。 --- 它一般是一个布尔类型的集合,该集合中每个元素都表示其对应的单词是否在文档中出现...
分类:
编程语言 时间:
2014-12-25 23:21:32
阅读次数:
383
本人还没有做过自然语言处理,但是基于Deep Learning 的关注,自然也了解了一些Word2vec的强大。
Word2vec 是google 在2013年提供的一款将词表征为实数值向量的高效工具。而Word2vec
输出的词向量可用于做NLP 相关的工作,比如聚类、找同义词、词性分析等。Word2vec 大受欢迎的一个原因是其高效性, Tomas Mikolov 在[1]...
分类:
其他好文 时间:
2014-11-13 16:47:26
阅读次数:
192
假设每个词对应一个词向量,假设:1、两个词的相似度正比于对应词向量的乘积。即:$sim(v_1,v_2)=v_1\cdot v_2$。即点乘原则;2、多个词$v_1~v_n$组成的一个上下文用$C$来表示,其中$C=\sum_{i=1}^{n}v_i$。即加和原则;
分类:
其他好文 时间:
2014-11-07 14:48:49
阅读次数:
801