在word2vec原理中讲到如果每个词向量由300个元素组成,并且一个单词表中包含了10000个单词。回想神经网络中有两个权重矩阵——一个在隐藏层,一个在输出层。这两层都具有300 x 10000 = 3,000,000个权重!使用梯度下降法在这种巨大的神经网络下面进行训练是很慢的。并且可能更糟糕的 ...
分类:
其他好文 时间:
2019-07-21 22:33:34
阅读次数:
523
预训练 先在某个任务(训练集A或者B)进行预先训练,即先在这个任务(训练集A或者B)学习网络参数,然后存起来以备后用。当我们在面临第三个任务时,网络可以采取相同的结构,在较浅的几层,网络参数可以直接加载训练集A或者B训练好的参数,其他高层仍然随机初始化。底层参数有两种方式: frozen ,即预训练 ...
分类:
其他好文 时间:
2019-07-20 23:21:29
阅读次数:
202
词向量训练步骤: 项目完整地址:https://github.com/cyandn/practice/tree/master/Word2Vec gensim中Word2Vec参数解释: 主要参数介绍如下: 存在的问题: 感觉 stop_words.txt 停用词去的有点狠。。 ...
分类:
其他好文 时间:
2019-07-14 23:56:34
阅读次数:
236
1. wordvec的概念 2. 语言模型训练的两种模型CBOW+skip gram 3. word2vec 优化的两种方法:层次softmax+负采样 4. gensim word2vec默认用的模型和方法 ...
分类:
其他好文 时间:
2019-07-14 19:33:18
阅读次数:
787
神经网络中有各种归一化算法:Batch Normalization (BN)、Layer Normalization (LN)、Instance Normalization (IN)、Group Normalization (GN)。从公式看它们都差不多,如 (1) 所示:无非是减去均值,除以标准差 ...
分类:
编程语言 时间:
2019-06-30 00:18:43
阅读次数:
148
1.numpy.random.uniform(low,high,size) 例如:numpy.random.uniform(-0.25,0.25,300) 随机的产生大小在[-0.25,0.25)之间维度为300的nparray 随机初始化词向量有论文说-0.25,0.25之间较好 2.Python ...
分类:
其他好文 时间:
2019-06-28 01:04:25
阅读次数:
106
首先需要具备gensim包,然后需要一个语料库用来训练,这里用到的是skip-gram或CBOW方法,具体细节可以去查查相关资料,这两种方法大致上就是把意思相近的词映射到词空间中相近的位置。 语料库test8下载地址: http://mattmahoney.net/dc/text8.zip 这个语料 ...
分类:
编程语言 时间:
2019-06-26 13:48:38
阅读次数:
299
理解 Word2Vec 之 Skip-Gram 模型 天雨粟 模型师傅 / 果粉 https://zhuanlan.zhihu.com/p/27234078 天雨粟 模型师傅 / 果粉 https://zhuanlan.zhihu.com/p/27234078 天雨粟 模型师傅 / 果粉 https ...
分类:
其他好文 时间:
2019-06-25 15:12:25
阅读次数:
101
1.对词用独热编码进行表示的缺点 向量的维度会随着句子中词的类型的增大而增大,最后可能会造成维度灾难2、任意两个词之间都是孤立的,仅仅将词符号化,不包含任何语义信息,根本无法表示出在语义层面上词与词之间的相关信息,而这一点是致命的。 2.用向量代表词的好处 3.词嵌入的由来 在NLP之分词中提过,o ...
分类:
其他好文 时间:
2019-06-16 20:05:09
阅读次数:
206
不同分词工具原理解析 对各种分词工具的介绍,具体参考: http://www.cnblogs.com/en-heng/p/6234006.html 具体参考: https://blog.csdn.net/rav009/article/details/12196623 jieba分词原理解析 采用的是 ...
分类:
其他好文 时间:
2019-06-14 22:08:31
阅读次数:
1527