输入数据格式:input(seq_len, batch, input_size)h0(num_layers * num_directions, batch, hidden_size)c0(num_layers * num_directions, batch, hidden_size) 输出数据格式: ...
分类:
其他好文 时间:
2019-07-14 18:03:57
阅读次数:
1135
近日,Reddit上的一篇帖子引起了网友的热议。帖子作者「mlvpj」称:「我们使用深度学习完成了一个简单的项目,可以自动进行Python代码补全。」根据介绍,该项目基于LSTM模型,训练后,负责对代码的缺失部分进行补全。评价模型的方法是判断节省了多少的按键信息——即模型给出长度为L的代码建议,如果和真实的代码匹配,则节省L-1个键入操作。实验结果说明,大约可以节省30%-50%的**时间键入成本
分类:
编程语言 时间:
2019-07-14 09:40:46
阅读次数:
116
We often come across 'ablation study' in machine learning papers, for example, in this paper with the original R-CNN, it has a section of ablation stu ...
分类:
其他好文 时间:
2019-07-11 19:59:45
阅读次数:
164
1. 检索 1)(单轮回复选择)匹配模型 a. sentence 生成定长向量 进行匹配 f(g(Q), g(R)) f和g各种变种 f: MLP Neural Tensor Cosine g: CNN LSTM+Att b. query 与 candidate response 匹配 g: Int ...
分类:
其他好文 时间:
2019-06-30 20:28:38
阅读次数:
116
RNN 一般神经网络隐层的计算是h=g(w * x),其中g是激活函数,相比于一般神经网络,RNN需要考虑之前序列的信息,因此它的隐藏h的计算除了当前输入还要考虑上一个状态的隐藏,h=g(w*x+w'*h'),其中h'是上一次计算的隐层,可见信息传递是通过隐层完成的。 LSTM 有上面普通RNN可以 ...
分类:
编程语言 时间:
2019-06-25 13:10:00
阅读次数:
129
第一部分:从RNN到LSTM 1、什么是RNN RNN全称循环神经网络(Recurrent Neural Networks),是用来处理序列数据的。在传统的神经网络模型中,从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。但是这种普通的神经网络对于很多关于时间序列的问题却无 ...
分类:
其他好文 时间:
2019-06-15 20:42:48
阅读次数:
213
● 深度学习了解多少,有看过底层代码吗?caffe,tf? ● 除了GMM-HMM,你了解深度学习在语音识别中的应用吗? 参考回答: 讲了我用的过DNN-HMM,以及与GMM-HMM的联系与区别;然后RNN+CTC,这里我只是了解,大概讲了一下CTC损失的原理;然后提了一下CNN+LSTM。 ● 用 ...
分类:
编程语言 时间:
2019-06-03 21:52:29
阅读次数:
145
LSTM特性, CNN特性, 损失函数, paper, 项目 ...软件 激活函数: -> sigmod: 硬饱和性, y(0,1), 斜率趋于0;-> tanh: 软饱和性, y(-1,1), 虽然输出均值为0, 可以更快收敛, 但斜率依然会趋于0;-> relu: 当x<0时, 存在硬饱和, y ...
分类:
编程语言 时间:
2019-06-03 14:05:10
阅读次数:
197
Outline 1 GRU概述 2 前向传播 3 训练过程 1 GRU概述 GRU是LSTM网络的一种效果很好的变体,它较LSTM网络的结构更加简单,而且效果也很好,因此也是当前非常流形的一种网络。GRU既然是LSTM的变体,因此也是可以解决RNN网络中的长依赖问题。 在LSTM中引入了三个门函数: ...
分类:
其他好文 时间:
2019-05-29 11:55:21
阅读次数:
804
一、Attention与其他模型 1、LSTM、RNN的缺点:输入的Memory长度不能太长,否则参数会很多。 采用attention可以输入长Memory,参数不会变多。 2、Sequence to Sequence Learning : 输入和输出的句子长度可以不一样,常用来做句子翻译。 比如: ...
分类:
其他好文 时间:
2019-05-27 00:49:46
阅读次数:
164