https://blog.csdn.net/cindy_1102/article/details/89010066一、既然我们已经对消失梯度问题的本质和它在深度神经网络中的表现有了直观的认识,那么让我们关注一个简单而实用的启发式方法来解决这些问题。 为了解决梯度爆炸的问题,Thomas Mikolo ...
分类:
其他好文 时间:
2020-05-26 20:46:27
阅读次数:
73
原文链接:https://arxiv.org/abs/1506.03134 Motivation 现有的序列化预测通常使用RNN。RNN的问题在于输出数量固定,对于答案长度动态变化的问题并不适用。 作者以凸包问题(Convex Hull)为例。给定一定数量的点,希望找到一系列点组成凸多边形,使得任一 ...
分类:
Web程序 时间:
2020-05-19 22:24:15
阅读次数:
76
1.1为什么选择序列模型 (1)序列模型广泛应用于语音识别,音乐生成,情感分析,DNA序列分析,机器翻译,视频行为识别,命名实体识别等众多领域。 (2)上面那些问题可以看成使用(x,y)作为训练集的监督学习,但是输入与输出的对应关系有非常多的组合,比如一对一,多对多,一对多,多对一,多对多(个数不同 ...
分类:
其他好文 时间:
2020-05-17 10:33:22
阅读次数:
124
1. LSTM原理 由我们所了解的RNN可知,RNN结构之所以出现梯度爆炸或者梯度消失,最本质的原因是因为梯度在传递过程中存在极大数量的连乘,为此有人提出了LSTM模型,它可以对有价值的信息进行记忆,放弃冗余记忆,从而减小学习难度。 与RNN相比,LSTM的神经元还是基于输入X和上一级的隐藏层输出h ...
分类:
其他好文 时间:
2020-05-15 11:54:47
阅读次数:
163
NLP 中的Mask全解 Mask 在NLP中是一个很常规的操作,也有多种应用的场景和形式,下面尝试从以下几个方面去全(用了夸张的修辞手法)解Mask,并尽可能地辅以图片说明和代码解释: Mask的作用: 处理非定长序列 RNN中的Mask Attention中Mask 防止标签泄露 Transfo ...
分类:
其他好文 时间:
2020-05-12 13:30:02
阅读次数:
473
很多清奇的解法不是靠拍脑袋一蹴而就的,而是随着传统解法一步一步优化来的。刷题时不需要经常焦虑自己没有创新毒辣的解题思路,应该从传统解法开始,考虑当前解法有什么可优化的点,并去实现它们。 最容易想到的自然是暴力法,我们假设每个元素都可以作为买入元素的前提下,再假设在其之后的每个元素尝试卖出,纪录最大差 ...
分类:
其他好文 时间:
2020-05-11 01:09:42
阅读次数:
45
1.序列数据: 自然语言 连续视频帧 股票走势 机器翻译 2.循环神经网络与传统神经网络的区别: 传统神经网络如多层感知机,每个隐藏层的节点之间是无连接的,而RNN则不然。有连接意味着有信息的流入,因此循环神经网络可以对序列数据进行预测和分类。 3.RNN序列处理 many 2 many :机器翻译 ...
分类:
Web程序 时间:
2020-05-09 09:13:02
阅读次数:
117
在2017年之前,语言模型都是通过RNN,LSTM来建模,这样虽然可以学习上下文之间的关系,但是无法并行化,给模型的训练和推理带来了困难,因此有人提出了一种完全基于attention来对语言建模的模型,叫做transformer。transformer摆脱了NLP任务对于RNN,LSTM的依赖,使用 ...
分类:
其他好文 时间:
2020-05-06 19:36:59
阅读次数:
53
CTPN是CNN+RNN的结合,CNN主要是用于文本框的提取,RNN将中间层的输入结果进行改变,保证文本框的上下文具有联系 网络结构 网络结构说明: 首先使用VGG,将原来图片的大小,缩小为1/16,因此每一个点输出结果是2*10概率和2*10的位置信息 标签制作: 构造16个像素,从上到下构造an ...
分类:
编程语言 时间:
2020-05-05 23:34:31
阅读次数:
104