环境 Python3, gensim,jieba,numpy ,pandas 原理:文章转成向量,然后在计算两个向量的余弦值。 Gensim gensim是一个python的自然语言处理库,能够将文档根据TF IDF, LDA, LSI 等模型转化成向量模式,gensim还实现了word2vec功能 ...
分类:
其他好文 时间:
2018-05-15 20:59:30
阅读次数:
6067
摘自:http://www.cnblogs.com/pinard/p/7160330.html 先看下列三篇,再理解此篇会更容易些(个人意见) skip-gram,CBOW,Word2Vec 词向量基础 CBOW与Skip-Gram用于神经网络语言模型 CBOW与Skip-Gram用于神经网络语言模 ...
分类:
其他好文 时间:
2018-05-15 12:19:30
阅读次数:
601
代码来源于:tensorflow机器学习实战指南(曾益强 译,2017年9月)——第七章:自然语言处理 代码地址:https://github.com/nfmcclure/tensorflow-cookbook 数据:http://www.cs.cornell.edu/people/pabo/mov ...
分类:
其他好文 时间:
2018-05-14 17:33:36
阅读次数:
543
一、模型 随机负采样方法,是后来对word2vec输出层做的一种改进,舍弃复杂的层次分类和huffman树 在已知词w上下文的情况下,对应的输出正样本就是w,负样本就是剩下的所有词,非常多,所以我们用某种方法,采样很小的部分,集合为NEG(w)。每个词u都有自己的辅助参数θ 我们希望最大化的函数为, ...
分类:
其他好文 时间:
2018-05-12 14:21:24
阅读次数:
144
一、输出层结构 注意到,huffman树的每一层,都有参数和激活函数sigmoid存在,实际上是一个神经网络。影响该节点的二分类走向。这和一般的多分类问题中,各种分类是同处于平等的最后一层,是不同的。 二、模型推导 我们重点关注输出层huffman树过程的模型推导。对于每个走到huffman树根节点 ...
分类:
其他好文 时间:
2018-05-12 13:16:36
阅读次数:
166
一、目的 词频越高的词,希望编码长度越短。 在huffman树中,叶子节点是各个词,叶子节点的权重是词频。每个词都有权重×距离根节点的长度,即词频*编码长度。Huffman树保证了上述所有词的上述乘积的和是最小的,即该编码方式的总代价是最小的。 二、huffman树的构造算法:这里略去,总之有确定的 ...
分类:
其他好文 时间:
2018-05-11 13:48:54
阅读次数:
195
git: https://github.com/linyi0604/MachineLearning ...
分类:
编程语言 时间:
2018-05-08 12:15:39
阅读次数:
504
https://blog.csdn.net/thinking_boy1992/article/details/53321827 https://www.jianshu.com/p/b2da4d94a122 https://zhuanlan.zhihu.com/p/22477976 一、概述 本文主要 ...
分类:
其他好文 时间:
2018-05-07 14:49:17
阅读次数:
184
真正掌握一种算法,最实际的方法,完全手写出来。 LSTM(Long Short Tem Memory)特殊递归神经网络,神经元保存历史记忆,解决自然语言处理统计方法只能考虑最近n个词语而忽略更久前词语的问题。用途:word representation(embedding)(词语向量)、sequen ...
分类:
其他好文 时间:
2018-05-01 15:27:29
阅读次数:
318
Tutorial on word2vector Project page: https://radimrehurek.com/gensim/models/word2vec.html 1. install gensim: https://radimrehurek.com/gensim/install. ...
分类:
其他好文 时间:
2018-04-28 19:35:31
阅读次数:
338