简介 GloVe是一种非常简单快速的训练词向量的算法。与复杂的word2vec相比,其是一个log双线性模型,仅通过一个简单的损失函数就能够得到很好的结果。 (1)J=∑i,jNf(Xi,j)(viTvj+bi+bj?log(Xi,j))2 其中,vi和vj是i和j的词向量,bi和bj是两个偏差项, ...
分类:
其他好文 时间:
2018-04-07 13:55:56
阅读次数:
734
CountVectorizer和Tf-idfVectorizer构建词向量都是通过构建字典的方式,比如在情感分析问题中,我需要把每一个句子(评论)转化为词向量,这两种方法是如何构建的呢?拿CountVectorizer来说,首先构建出一个字典,字典包含了所有样本出现的词汇,每一个词汇对应着它出现的顺 ...
分类:
其他好文 时间:
2018-03-31 00:50:30
阅读次数:
4017
《统计学习》——感知机 本文不是像网上大多数的博文那样,洋洋洒洒的写一大篇文章,只是记录下学习机器学习的一些总结与心得,志在总结与和同道中人一起讨论,分享各自的想法。 1.何为感知机? 我们在学习机器学习的时候,基本都是从感知机开始的,为什么?因为它的思想较为易懂和容易实现,而且对于一般的问题(如二 ...
分类:
其他好文 时间:
2018-02-08 00:28:39
阅读次数:
145
机器不学习 jqbxx.com -机器学习、深度学习好网站 word2vec是如何得到词向量的?这个问题比较大。从头开始讲的话,首先有了文本语料库,你需要对语料库进行预处理,这个处理流程与你的语料库种类以及个人目的有关,比如,如果是英文语料库你可能需要大小写转换检查拼写错误等操作,如果是中文日语语料 ...
分类:
其他好文 时间:
2018-02-07 22:44:36
阅读次数:
229
博客出处:http://www.cnblogs.com/maybe2030/ 阅读目录 1. 词向量 2.Distributed representation词向量表示 3.词向量模型 4.word2vec算法思想 5.doc2vec算法思想 6.参考内容 深度学习掀开了机器学习的新篇章,目前深度学 ...
分类:
其他好文 时间:
2018-01-03 19:37:15
阅读次数:
420
如果要一句话概括词向量的用处,就是提供了一种数学化的方法,把自然语言这种符号信息转化为向量形式的数字信息。这样就把自然语言理解的问题要转化为机器学习的问题。 其中最常用的词向量模型无非是 one-hot Representation模型和 distributed representation 模型。 ...
分类:
其他好文 时间:
2018-01-02 21:23:28
阅读次数:
2432
首先,我们定义好一个LSTM网络,然后给出一个句子,每个句子都有很多个词构成,每个词可以用一个词向量表示,这样一句话就可以形成一个序列,我们将这个序列依次传入LSTM,然后就可以得到与序列等长的输出,每个输出都表示的是一种词性,比如名词,动词之类的,还是一种分类问题,每个单词都属于几种词性中的一种。 ...
分类:
其他好文 时间:
2017-12-08 23:12:09
阅读次数:
248
> 文本相似度算法## minhash```1. 把文档A分词形成分词向量L2. 使用K个hash函数,然后每个hash将L里面的分词分别进行hash,然后得到K个被hash过的集合3. 分别得到K个集合中的最小hash,然后组成一个长度为K的hash集合4. 最后用Jaccard index求出两... ...
分类:
其他好文 时间:
2017-11-30 23:35:09
阅读次数:
411
词向量:编码词汇级别的信息 url:http://pytorch.org/tutorials/beginner/nlp/word_embeddings_tutorial.html?highlight=lookup 词嵌入 词嵌入是稠密向量,每个都代表了一个单词表里面的一个单词。NLP中每个Featu ...
分类:
其他好文 时间:
2017-11-30 19:14:37
阅读次数:
143
最近要开始读论文了,其实自己读论文的能力挺不怎么样的,并且读过就忘记,这实在是让人很不爽的事情。自己分析记不住的原因可以有以下几点: 读论文时理解就不深刻,有时候就是一知半解的 读完之后没有总结,即没有自己概括这篇论文的过程,所以文中一知半解的过程还是忽略了,并且以后再回顾的时候,这篇论文对自己来说 ...
分类:
其他好文 时间:
2017-11-17 21:02:02
阅读次数:
222