# Downloading data. If the file already exists, check that it was received correctly (the file size is the same).# Return filename after download. voc ...
分类:
其他好文 时间:
2017-06-30 18:56:00
阅读次数:
332
Tensorflor实现文本分类 下面我们使用CNN做文本分类 cnn实现文本分类的原理 下图展示了如何使用cnn进行句子分类。输入是一个句子,为了使其可以进行卷积,首先需要将其转化为向量表示,通常使用word2vec实现。d=5表示每个词转化为5维的向量,矩阵的形状是[sentence_lengt ...
分类:
其他好文 时间:
2017-06-21 18:16:44
阅读次数:
747
目前智能QA系统都是基于seq2seq模型来开发(如google),seq2seq模型基于one-hot的词嵌入,每个词用一个数字代替不足以表示词与词之间的关系,word2vec通过多维向量来做词嵌入,能够表示出词之间的关系,比如:男-女≈王子-公主。基于seq2seq的思想,利用多维词向量来实现模... ...
分类:
其他好文 时间:
2017-06-09 23:35:54
阅读次数:
1165
需要的几个文件: 1.wordList.txt,即你要转化成vector的word list: 2.label.txt, 即图中显示的label,可以与wordlist.txt中的word不同。 3.model,用gensim生成的word2vec model; 4.运行buildWordVecto ...
分类:
编程语言 时间:
2017-06-08 11:59:52
阅读次数:
1364
上次说到了 智能推荐是怎麽做的,这次聊一下寒暄库的建设思路。 目前智能QA系统都是基于seq2seq模型来开发(如google),seq2seq模型基于one-hot的词嵌入,每个词用一个数字代替不足以表示词与词之间的关系,word2vec通过多维向量来做词嵌入,能够表示出词之间的关系,比如:男-女 ...
分类:
其他好文 时间:
2017-06-08 01:33:35
阅读次数:
308
1. 目的: 探索一种面向微博的社会情绪词典构建方法; 2. 步骤: 1)通过手工方法建立小规模的基准情绪词典; 2)利用深度学习工具 Word2vec对社会热点事件的微博语料通过增量式学习方法来扩展基准词典,并结合 HowNet词典匹配和人工筛选生成最终的情绪词典; 3. 试验阶段: 分别利用基于 ...
分类:
其他好文 时间:
2017-06-01 00:28:08
阅读次数:
251
经理让我把word2vec训练后得到的bin文件转为txt文件,目前还不知道txt文件用来干什么。其实word2vec训练语料时可以选择训练处出bin文件或者txt文件,但是训练出bin文件时过程太漫长,我怕直接训练出txt文件也一样慢,所以还是自己想办法做这个事情了。 我用到了gensim,这个需 ...
分类:
编程语言 时间:
2017-05-31 12:15:51
阅读次数:
398
# -*- coding: utf-8 -*- import gensim # 导入模型 model = gensim.models.KeyedVectors.load_word2vec_format('vectors.bin', binary=True) # 得到两组词的相似度 list1 = [... ...
分类:
其他好文 时间:
2017-05-31 12:10:24
阅读次数:
798
概述 Word2vec是一款由谷歌发布开源的自然语言处理算法,其目的是把words转换成vectors,从而可以用数学的方法来分析words之间的关系。Spark其该算法进行了封装,并在mllib中实现。 整体流程是spark离线训练模型,可以是1小时1训练也可以1天1训练,根据具体业务来判断,sp ...
分类:
其他好文 时间:
2017-05-16 23:07:29
阅读次数:
218
Model: 1、预处理 ,使用word2Vec 进行词向量转换 -> K维的词向量: ,所以一个句子就是 2、当过滤窗口设为h时,移动窗口设为1时,特征的卷积可变为之后特征便会缩减为 3、她的下一层设为softmax layer 作为分类标签的概率分布 4、特色在于设置了两种词向量,一种是在训练中 ...
分类:
其他好文 时间:
2017-05-09 21:40:24
阅读次数:
206