码迷,mamicode.com
首页 >  
搜索关键字:gensim    ( 87个结果
使用gensim和sklearn搭建一个文本分类器(一):文档向量化
总的来讲,一个完整的文本分类器主要由两个阶段,或者说两个部分组成:一是将文本向量化,将一个字符串转化成向量形式;二是传统的分类器,包括线性分类器,SVM, 神经网络分类器等等。之前看的THUCTC的技...
分类:其他好文   时间:2016-09-06 15:52:30    阅读次数:5718
Python版的Word2Vector -- gensim 学习手札 中文词语相似性度量
前言相关内容链接: 第一节:Google Word2vec 学习手札 昨天好不容易试用了一下Google自己提供的Word2Vector的源代码,花了好长时间训练数据,结果发现似乎Python并不能...
分类:编程语言   时间:2016-08-25 21:23:17    阅读次数:481
开源共享一个训练好的中文词向量(语料是维基百科的内容,大概1G多一点)
使用gensim的word2vec训练了一个词向量。 语料是1G多的维基百科,感觉词向量的质量还不错,共享出来,希望对大家有用。 下载地址是http://pan.baidu.com/s/1pLGlJ7d 密码:hw47 包含训练代码、使用词向量代码、词向量文件(3个文件) 因为机器内存足够,也没有分 ...
分类:其他好文   时间:2016-08-19 13:00:40    阅读次数:365
如何计算两个文档的相似度(二)
注:完全进行了测试,并附有完整代码: # -*- coding: cp936 -*- from gensim import corpora, models, similarities import logging logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s' , level=logging.INF...
分类:其他好文   时间:2016-07-19 11:10:16    阅读次数:297
如何计算两个文档的相似度(三)
本文代码全部实现,并附上注释: # -*- coding: cp936 -*- import nltk from nltk.tokenize import word_tokenize from nltk.corpus import stopwords from nltk.stem.lancaster import LancasterStemmer from gensim import cor...
分类:其他好文   时间:2016-07-19 10:39:25    阅读次数:239
安装gensim
安装了一天的gensim,其中因为版本不一致等等各种问题纠结了好久,现记录如下: 正确安装方式: 1. 安装python2.7 2. 下载Python Extension Packages对应版本的numpy、scipy、gensim 3. 进入python安装目录下的Scripts目录 执行: p... ...
分类:其他好文   时间:2016-07-05 23:54:49    阅读次数:3156
Gensim-LDA实践
本文利用gensim进行LDA主题模型实验,第一部分是基于前文的wiki语料,第二部分是基于Sogou新闻语料。 1. 基于wiki语料的LDA实验 上一文得到了wiki纯文本已分词语料 wiki.zh.seg.utf.txt,去停止词后可进行LDA实验。 同时gensim也提供了对wiki压缩包直 ...
分类:其他好文   时间:2016-07-05 18:58:05    阅读次数:4412
doc2vec 利用gensim 生成文档向量
利用gensim 直接生成文档向量 ...
分类:其他好文   时间:2016-05-30 23:28:15    阅读次数:4353
Paragraph Vector在Gensim和Tensorflow上的编写以及应用
上一期讨论了Tensorflow以及Gensim的Word2Vec模型的建设以及对比。这一期,我们来看一看Mikolov的另一个模型,即Paragraph Vector模型。目前,Mikolov以及Bengio的最新论文Ensemble of Generative and Discriminativ ...
分类:其他好文   时间:2016-05-30 01:05:17    阅读次数:2325
【python gensim使用】word2vec词向量处理英文语料
word2vec介绍word2vec官网:https://code.google.com/p/word2vec/ word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离。 它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。 word2vec计算的是余弦值,距离范围为0-1之间,值越大代...
分类:编程语言   时间:2016-05-22 12:22:15    阅读次数:456
87条   上一页 1 ... 6 7 8 9 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!