导读 本文简单的介绍了Google 于 2013 年开源推出的一个用于获取 word vector 的工具包(word2vec),并且简单的介绍了其中的两个训练模型(Skip gram,CBOW),以及两种加速的方法(Hierarchical Softmax,Negative Sampling)。 ...
分类:
其他好文 时间:
2018-04-24 21:54:36
阅读次数:
533
0. 风一更 有几天没有更新了,因为不知道小白喵的学习情况。小黑喵学习深度学习主要还是更偏NLP一点。在文本数据使用word2vec处理为向量矩阵这部分是视觉方向接触不到的,之前想更这部分内容,不过既然是个方法与工具,就觉得意义不是很大,本质上要处理文本还是将其转换为适合神经网络的矩阵向量输入。 前 ...
分类:
其他好文 时间:
2018-04-20 10:57:56
阅读次数:
456
第六届"泰迪杯"参赛经历总结 Part 1 赛题 点击Part 1 赛题进入题目网站 Part 2 C题参考与建议 智能阅读模型的构建 —— 一份阅读建议 一、 赛题 1、 赛题 (1) 主题:以文本输入作为知识基础的智能问答模型 (2) 学名:篇章排序、阅读理解 (3) 数据:给出问题文本,判断材 ...
分类:
其他好文 时间:
2018-04-15 13:37:32
阅读次数:
395
基于 word2vec 和 CNN 的文本分类 :综述 & 实践 https://zhuanlan.zhihu.com/p/29076736 文本分类的算法 一、决策树(Decision Trees) 二、人工神经网络 准确度高 并行分布处理能力强,分布存储及学习能力强,鲁棒性好 联想记忆 神经网络 ...
分类:
其他好文 时间:
2018-04-08 22:40:25
阅读次数:
221
简介 GloVe是一种非常简单快速的训练词向量的算法。与复杂的word2vec相比,其是一个log双线性模型,仅通过一个简单的损失函数就能够得到很好的结果。 (1)J=∑i,jNf(Xi,j)(viTvj+bi+bj?log(Xi,j))2 其中,vi和vj是i和j的词向量,bi和bj是两个偏差项, ...
分类:
其他好文 时间:
2018-04-07 13:55:56
阅读次数:
734
首先把需要下载的东西都列出来 1. 语料:下载地址是https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2,或者在这里找https://dumps.wikimedia.org/zhwiki/。这个文 ...
之前以为直接使用 就可以完成学习,后面发现和paper的意思不匹配,这一层是需要单独获取的。 先附上可以参考的链接: 1. "LSTM里Embedding Layer的作用是什么" 2. "http://www.cnblogs.com/iloveai/p/word2vec.html" 3. "原文" ...
分类:
其他好文 时间:
2018-04-01 16:03:26
阅读次数:
433
CountVectorizer和Tf-idfVectorizer构建词向量都是通过构建字典的方式,比如在情感分析问题中,我需要把每一个句子(评论)转化为词向量,这两种方法是如何构建的呢?拿CountVectorizer来说,首先构建出一个字典,字典包含了所有样本出现的词汇,每一个词汇对应着它出现的顺 ...
分类:
其他好文 时间:
2018-03-31 00:50:30
阅读次数:
4017