需要的几个文件: 1.wordList.txt,即你要转化成vector的word list: 2.label.txt, 即图中显示的label,可以与wordlist.txt中的word不同。 3.model,用gensim生成的word2vec model; 4.运行buildWordVecto ...
分类:
编程语言 时间:
2017-06-08 11:59:52
阅读次数:
1364
上次说到了 智能推荐是怎麽做的,这次聊一下寒暄库的建设思路。 目前智能QA系统都是基于seq2seq模型来开发(如google),seq2seq模型基于one-hot的词嵌入,每个词用一个数字代替不足以表示词与词之间的关系,word2vec通过多维向量来做词嵌入,能够表示出词之间的关系,比如:男-女 ...
分类:
其他好文 时间:
2017-06-08 01:33:35
阅读次数:
308
数据收集以后,我们下面接着要干的事情是如何将文本转换为神经网络能够识别的东西。 词向量 作为自然语言,只有被数学化才能够被计算机认识和计算。数学化的方法有很多,最简单的方法是为每个词分配一个编号,这种方法已经有多种应用,但是依然存在一个缺点:不能表示词与词的关系。 词向量是这样的一种向量[2.1, ...
分类:
其他好文 时间:
2017-06-08 01:23:18
阅读次数:
267
序列分类,预测整个输入序列的类别标签。情绪分析,预测用户撰写文字话题态度。预测选举结果或产品、电影评分。 国际电影数据库(International Movie Database)影评数据集。目标值二元,正面或负面。语言大量否定、反语、模糊,不能只看单词是否出现。构建词向量循环网络,逐个单词查看每条 ...
分类:
数据库 时间:
2017-06-04 10:46:37
阅读次数:
298
1. 目的: 探索一种面向微博的社会情绪词典构建方法; 2. 步骤: 1)通过手工方法建立小规模的基准情绪词典; 2)利用深度学习工具 Word2vec对社会热点事件的微博语料通过增量式学习方法来扩展基准词典,并结合 HowNet词典匹配和人工筛选生成最终的情绪词典; 3. 试验阶段: 分别利用基于 ...
分类:
其他好文 时间:
2017-06-01 00:28:08
阅读次数:
251
经理让我把word2vec训练后得到的bin文件转为txt文件,目前还不知道txt文件用来干什么。其实word2vec训练语料时可以选择训练处出bin文件或者txt文件,但是训练出bin文件时过程太漫长,我怕直接训练出txt文件也一样慢,所以还是自己想办法做这个事情了。 我用到了gensim,这个需 ...
分类:
编程语言 时间:
2017-05-31 12:15:51
阅读次数:
398
# -*- coding: utf-8 -*- import gensim # 导入模型 model = gensim.models.KeyedVectors.load_word2vec_format('vectors.bin', binary=True) # 得到两组词的相似度 list1 = [... ...
分类:
其他好文 时间:
2017-05-31 12:10:24
阅读次数:
798
概述 Word2vec是一款由谷歌发布开源的自然语言处理算法,其目的是把words转换成vectors,从而可以用数学的方法来分析words之间的关系。Spark其该算法进行了封装,并在mllib中实现。 整体流程是spark离线训练模型,可以是1小时1训练也可以1天1训练,根据具体业务来判断,sp ...
分类:
其他好文 时间:
2017-05-16 23:07:29
阅读次数:
218
Mmseg中文分词算法解析 @author linjiexing 开发中文搜索和中文词库语义自己主动识别的时候,我採用都是基于mmseg中文分词算法开发的Jcseg开源project。使用场景涉及搜索索引创建时的中文分词、新词发现的中文分词、语义词向量空间构建过程的中文分词和文章特征向量提取前的中文 ...
分类:
编程语言 时间:
2017-05-16 11:00:05
阅读次数:
180
Model: 1、预处理 ,使用word2Vec 进行词向量转换 -> K维的词向量: ,所以一个句子就是 2、当过滤窗口设为h时,移动窗口设为1时,特征的卷积可变为之后特征便会缩减为 3、她的下一层设为softmax layer 作为分类标签的概率分布 4、特色在于设置了两种词向量,一种是在训练中 ...
分类:
其他好文 时间:
2017-05-09 21:40:24
阅读次数:
206