一、概述 在上一篇中,我们介绍了Word2Vec即词向量,对于Word Embeddings即词嵌入有了些基础,同时也阐述了Word2Vec算法的两个常见模型 :Skip-Gram模型和CBOW模型,本篇会对两种算法做出比较分析并给出其扩展模型-GloVe模型。 首先,我们将比较下原Skip-gra ...
分类:
编程语言 时间:
2018-08-11 21:54:04
阅读次数:
302
写在前面的话(可略过): 一直想写下、整理下利用Tensorflow或Keras工具进行自然语言处理(NLP)方面的文章,对比和纠结了一段时间,发现博众家之长不如静下心来一步一个脚印地去看一本书来得更实在,虽然慢但是心里相对踏实些。近期刚把Thushan Ganegedara写的《Natural L ...
分类:
编程语言 时间:
2018-08-08 19:29:08
阅读次数:
221
RNN(Recurrent Netural Network)循环神经网络,用来处理和预测序列数据,在语音识别,语言描述,翻译等领域有很好的运用。 传统神经网络结构如CNN是假设所有的input之间是相互独立的,output之间也相互独立,但实际中会存在由前面几个字去推测后面的词,这个时候CNN的假设 ...
分类:
其他好文 时间:
2018-08-07 20:46:50
阅读次数:
195
cbow和skip-gram都是在word2vec中用于将文本进行向量表示的实现方法,具体的算法实现细节可以去看word2vec的原理介绍文章。我们这里大体讲下两者的区别,尤其注意在使用当中的不同特点。 在cbow方法中,是用周围词预测中心词,从而利用中心词的预测结果情况,使用GradientDes ...
分类:
其他好文 时间:
2018-08-03 14:17:19
阅读次数:
351
文本 文本预处理 1. 中文分词:分词工具: "jieba" / "snownlp" /...,是否需要去除停用词? 2. word embedding:工具:word2vec/ doc2vec/ TF IDF/ CountVectorizer/ HashVectorizer/ ....作为模型输入 ...
分类:
其他好文 时间:
2018-07-23 19:57:03
阅读次数:
182
主要参考: word2vec 中的数学原理详解 自己动手写 word2vec ...
分类:
编程语言 时间:
2018-07-18 01:12:29
阅读次数:
187
主要参考: word2vec 中的数学原理详解 自己动手写 word2vec 编码的话,根是不记录在编码中的 这一篇主要讲的就是霍夫曼树(最优二叉树)和编码。 参考 快速画出哈夫曼树 / 霍夫曼树 / 最优树 了解其构成。 哈夫曼树及 python 实现 python 代码 构建霍夫曼树 ,获得霍夫 ...
分类:
其他好文 时间:
2018-07-18 00:33:27
阅读次数:
300
word2vec:低维向量的直接学习 接下来,我们来看下Deep Learning是如何从原始的语料库中直接学习到低维词向量的表达。这也是我们学习的第一个Deep NLP模型——word2vec模型。 Assignment ...
分类:
其他好文 时间:
2018-07-10 23:43:16
阅读次数:
270
tf.nn.nce_loss是word2vec的skip-gram模型的负例采样方式的函数,下面分析其源代码。 1 上下文代码 其中, train_inputs中的就是中心词,train_label中的就是语料库中该中心词在滑动窗口内的上下文词。 所以,train_inputs中会有连续n-1(n为 ...
分类:
其他好文 时间:
2018-07-09 17:17:32
阅读次数:
621
自然语言处理与深度学习: 语言模型: N-gram模型: ...
分类:
编程语言 时间:
2018-07-07 23:56:35
阅读次数:
229