Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。 基本概念 语料(Corp ...
分类:
其他好文 时间:
2018-01-08 13:30:09
阅读次数:
189
利用 TensorFlow 入门 Word2Vec 原创 2017-10-14 chen_h coderpai 博客地址:http://www.jianshu.com/p/4e16ae0aad25 或者点击阅读原文 我认为学习算法的最好方法就是尝试去实现它,因此这个教程我们就来学习如何利用 Tens ...
分类:
其他好文 时间:
2018-01-07 16:07:16
阅读次数:
272
博客出处:http://www.cnblogs.com/maybe2030/ 阅读目录 1. 词向量 2.Distributed representation词向量表示 3.词向量模型 4.word2vec算法思想 5.doc2vec算法思想 6.参考内容 深度学习掀开了机器学习的新篇章,目前深度学 ...
分类:
其他好文 时间:
2018-01-03 19:37:15
阅读次数:
420
内部学习了下word2vec和fasttext,感觉还是挺有意思的,稍微记一点东西吧。 两个东西一脉相承,出自同一人手; 所以很多东西都是相似的,比如 思路:用周围元素估计中心元素 每次都要修改的策略; 完全随机的初始 可能是因为没有应用到,暂时没有感觉太多,先记录些资料吧,后面会用到 word2v ...
分类:
其他好文 时间:
2017-12-28 21:44:36
阅读次数:
147
安装gensim前要装python,numpy, scipy, 通过pip list检查开始安装gensim sudo pip install gensim 参考文档:http://www.jianshu.com/p/6d542ff65b1e http://kexue.fm/archives/431 ...
分类:
其他好文 时间:
2017-12-28 11:57:15
阅读次数:
226
将word2vec思想拓展到序列item的2vec方法并运用到推荐系统中,实质上可以认为是一种cf 在word2vec中,doc中的word是具有序列关系的,优化目标类似在max对数似然函数 应用在item2vec上,可以有两种看待方式: (1)如果item是强时序关系的,那么对某一次序列中的ite ...
分类:
其他好文 时间:
2017-12-23 19:11:03
阅读次数:
168
1、skip-gram模型 一文详解 Word2vec 之 Skip-Gram 模型(结构篇) ...
分类:
其他好文 时间:
2017-12-20 14:53:53
阅读次数:
110
在Spark中使用ansj分词先要将ansj_seg-5.1.1.jar和nlp-lang-1.7.2.jar加入工程 ansj源码github:https://github.com/NLPchina/ansj_seg ansj下载链接:https://oss.sonatype.org/conten ...
分类:
其他好文 时间:
2017-12-08 19:17:12
阅读次数:
917
好吧,我承认,我又开始搞word2vec了,好多次了。 上一篇是: http://www.cnblogs.com/charlesblc/p/7615825.html 先在阡陌机器上面训练了: work@cp01-online-strategy-framework tensorflow-word2ve ...
分类:
其他好文 时间:
2017-12-04 20:31:33
阅读次数:
200
引言 在机器学习领域,语言识别和图像识别都比较容易做到。语音识别的输入数据可以是音频频谱序列向量所构成的matrix,图像识别的输入数据是像素点向量构成的矩阵。但是文本是一种抽象的东西,显然不能直接把文本数据喂给机器当做输入,因此这里就需要对文本数据进行处理。 现在,有这么一个有趣的例子,我接下来要 ...
分类:
编程语言 时间:
2017-11-28 01:38:42
阅读次数:
235