博客园的markdown用起来太心塞了,现在重新用其他编辑器把这篇博客整理了一下。 目前用word2vec算法训练词向量的工具主要有两种:gensim 和 tensorflow。gensim中已经封装好了word2vec这个包,用起来很方便,只要把文本处理成规范的输入格式,寥寥几行代码就能训练词向量 ...
分类:
其他好文 时间:
2019-05-09 13:57:30
阅读次数:
218
Word2vec Tutorial RADIM ?EH??EK 2014-02-02 GENSIM, PROGRAMMING 157 COMMENTS I never got round to writing a tutorial on how to use word2vec in gensim. ...
分类:
其他好文 时间:
2019-04-16 22:55:14
阅读次数:
463
word2vec完整的解释可以参考《word2vec Parameter Learning Explained》这篇文章。 cbow模型 cbow模型的全称为Continuous Bag-of-Word Model。该模型的作用是根据给定的词$w_{input}$,预测目标词出现的概率$w_t$,对 ...
分类:
其他好文 时间:
2019-04-16 00:55:19
阅读次数:
298
1. 文本向量化特征的不足 在将文本分词并向量化后,我们可以得到词汇表中每个词在各个文本中形成的词向量,比如在文本挖掘预处理之向量化与Hash Trick这篇文章中,我们将下面4个短文本做了词频统计: corpus=["I come to China to travel", "This is a c ...
分类:
其他好文 时间:
2019-04-07 18:07:57
阅读次数:
161
一、分布式词表示(Distributed Represantation) Word2Vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,具体思想可由Tomas Mikolov的两篇论文一探究竟。此文是我对Word2Vec学习的总结。分布式词表示使用低维 ...
分类:
其他好文 时间:
2019-03-25 23:37:28
阅读次数:
248
ip install gensim安装好库后,即可导入使用: 1、训练模型定义 参数解释: 0.sentences是训练所需语料,可通过以下方式进行加载 此处训练集的格式为英文文本或分好词的中文文本 1.sg=1是skip-gram算法,对低频词敏感;默认sg=0为CBOW算法。 2.size是输出 ...
分类:
编程语言 时间:
2019-03-24 17:32:09
阅读次数:
223
先记录一下刚开始最慢最蠢的方法:(第一个函数是用单词训练的word2vec,第二个是字符训练的) ...
分类:
其他好文 时间:
2019-03-14 18:09:00
阅读次数:
173
参考书 《TensorFlow:实战Google深度学习框架》(第2版) 一个完整的训练程序,它使用一个双层LSTM作为循环神经网络的主体,并共享Softmax层和词向量层的参数。 运行结果: ? ...
分类:
编程语言 时间:
2019-02-26 17:08:14
阅读次数:
405
朴素贝叶斯 朴素贝叶斯概述 文本分类 准备数据:从文 本中构建词向量 训练算法:从词向量计算概率 贝叶斯分类函数 词袋模型 一个小优化,相比与之前只统计词出现与否的词条模型,词袋模型统计词出现的次数 垃圾邮件过滤 不清楚为什么我做出来的错误率这么高,算了,先放着吧 最后一个不写了 ...
分类:
其他好文 时间:
2019-02-26 11:54:06
阅读次数:
195
1. 需要传入词向量 2.position_encoding 3. multihead_attention 4. feedforward 5.normalize 6. encoder-decoder 7. train ...
分类:
其他好文 时间:
2019-02-25 15:00:56
阅读次数:
332