需求:我有800万的中文词向量,我想要查询其中任意一个向量对应的最邻近的向量是哪些。通常情况下如果向量集比较小的话,几十万个向量(几个G这种),我们都可以用gensim的word2vec来查找,但是880万有16个G,加到内存中就爆炸了,而且gensim中的查找属于暴力搜索,即全都遍历比较余弦相似度 ...
分类:
其他好文 时间:
2018-12-03 22:57:16
阅读次数:
545
1. 数据准备:收集数据与读取 2. 数据预处理:处理数据 3. 训练集与测试集:将先验数据按一定比例进行拆分。 4. 提取数据特征,将文本解析为词向量 。 5. 训练模型:建立模型,用训练数据训练模型。即根据训练样本集,计算词项出现的概率P(xi|y),后得到各类下词汇出现概率的向量 。 6. 测 ...
分类:
其他好文 时间:
2018-12-03 12:01:18
阅读次数:
169
1. 数据准备:收集数据与读取 2. 数据预处理:处理数据 3. 训练集与测试集:将先验数据按一定比例进行拆分。 4. 提取数据特征,将文本解析为词向量 。 5. 训练模型:建立模型,用训练数据训练模型。即根据训练样本集,计算词项出现的概率P(xi|y),后得到各类下词汇出现概率的向量 。 6. 测 ...
分类:
其他好文 时间:
2018-12-03 12:00:56
阅读次数:
226
JuJu团队11月30号工作汇报 JuJu Scrum 团队成员今日工作剩余任务困难 于达 婷婷 恩升 金华 陈灿 和金华,婷婷一起找到并纠正了BiLSTM中的bug 嵌入解码以及词向量矩阵 对Dense这样层的底层实现不熟悉 代码嵌入截屏: PM报告 整个项目的任务量预期为220 people*h ...
分类:
其他好文 时间:
2018-12-01 11:00:59
阅读次数:
125
1.智能玩具的项目描述: 目的:关爱留守儿童, 让玩具成为父母间沟通的媒介, 建立沟通的桥梁,让玩具成为孩子的玩伴 实现无屏社交,依靠孩子的语音指令做出响应,例如我要和爸爸聊天,玩具会提示可以和爸爸聊天了并打开与app通讯的链接 我要听世上只有妈妈好,玩具就会依照指令播放相应的内容 2.说说智能玩具... ...
分类:
其他好文 时间:
2018-11-26 17:26:57
阅读次数:
211
word2vec是google在2013年推出的NLP工具,特点是将所有的词向量化,这样词与词之间就可以定量地度量 它们之间的关系,挖掘之间的联系。 1. CBOW(输出中心词) CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量,而输出就是这特定的一个词的词向量 我们上下文大小取值为 ...
分类:
其他好文 时间:
2018-11-20 21:42:50
阅读次数:
137
20017-2018年本书作者Christopher D. Manning 在Bytedance演讲时指出的NLP研究趋势: (1) word2vec -> GloVe词向量 (2) MT问题:SMT->NMT,biLSTM+attention (3) text_summary: first 3 s ...
分类:
编程语言 时间:
2018-11-14 19:47:11
阅读次数:
138
word2vec介绍 word2vec官网:https://code.google.com/p/word2vec/ word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离。 它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空 ...
分类:
其他好文 时间:
2018-11-05 22:24:57
阅读次数:
852
1.“句向量”简介word2vec提供了高质量的词向量,并在一些任务中表现良好。 关于word2vec的原理可以参考这几篇论文: https://arxiv.org/pdf/1310.4546.pdfhttps://arxiv.org/pdf/1301.3781.pdf关于如何使用第三方库gensi ...
分类:
其他好文 时间:
2018-10-31 10:35:15
阅读次数:
177