码迷,mamicode.com
首页 > 其他好文 > 详细

深度学习之基础篇(三)

时间:2019-06-06 00:16:53      阅读:371      评论:0      收藏:0      [点我收藏+]

标签:结果   情况   lib   根据   表示   一致性   加速   相交   参数   

1、神经网络中损失函数和优化函数的作用

训练出一个网络模型之后如何对模型进行评估?往往是衡量预测值与真实值之间的差异程度,这就是通过损失函数来完成的。另外损失函数也是神经网络中优化的目标函数,神经网络训练或者优化的过程就是最小化损失函数的过程,损失函数越小,说明模型的预测值就越接近真实值,模型的准确性也就越好。那么为了最小化损失函数则需要对网络模型的参数进行更新,确定如何更新参数这时则需要选择合适的优化函数(用以确定对网络模型参数进行更新的方法,步长和方向的确定)。我们都知道,神经网络模型训练得以实现是经过前向传播计算LOSS,根据LOSS的值进行反向推到,进行相关参数的调整。这个过程需要在loss值的指导下进行,因此在优化时需要传入loss值。

2、神经网络中的收敛

 

一般我们可以设置一个迭代次数阈值,当损失loss的变化小于一个很小的值,或者迭代次数达到阈值上限,那么我们一般就认为模型已经收敛了。
在实际应用中,如果你用的是TensorFlow之类的工具,可以在Tensorboard上看loss的变化情况,如果曲线趋于平的,那么基本就可以认为是收敛了。
另外收敛只看训练集的损失值,与测试集无关。

3、train loss与val loss结果分析

 

train loss 不断下降,val loss不断下降,说明网络仍在学习; 
train loss 不断下降,val loss趋于不变,说明网络过拟合; 
train loss 趋于不变,val loss不断下降,说明数据集可能有问题; 
train loss 趋于不变,val loss趋于不变,说明学习可能已经收敛; 
train loss 不断上升,val loss不断上升,说明网络结构设计不当,训练超参数设置不当,数据集经过清洗等问题。

4、影响神经网络收敛速度的不同因素

1)对于收敛路径而言,梯度的方向和步长的大小显然是对收敛速度两个最直接的因素。对于网络优化问题来说也是两个角度,一个是学习率衰减,决定了梯度下降的步长,包括AdaGradRMSpropAdaDelta;另一个就是梯度方向,避免陷入局部最优,包括动量法、Nesterov加速梯度、梯度截断等;还包括mini batch方法,引入随机噪声又能平滑梯度,相交于一次性全局梯度和单个样本随机梯度。

2)参数的初始化也很重要,既要避免参数全部一致导致学习特征单一,又要避免激活函数(sigmoid)的净输入陷入饱和区导致梯度为0无法学习。随机初始化包括高斯分布以及Xavier[‘ze?v?r]

3)数据预处理就是归一化。简单地讲,由于特征量度不同,导致Loss的等高线成为不均匀的椭圆状,在像最优点下降过程中,梯度方向难免出现震荡,使得收敛速度变缓。引入归一化后,使得Loss等高线变为更均匀的圆形,约束梯度下降的方向指向正中圆心最优点,得到最优的收敛路径。归一化方法包括缩放归一化和标准分布归一化。

4)训练过程中,层与层之间输入输出需要保持分布一致性,否则会出现内部协变量偏移,越深的层次,现象越明显。深度神经网络中,误差通过梯度反向传播,分布不一致会导致参数更新不是最优的方向,阻碍了收敛最优点。解决方案是引入输入输出规范化,包括批规范化BN和层规范化LN

5)残差网络ResNetResNet是针对CNN训练中层次过深导致退化问题。简单来说,卷积用来提取目标特征,而越深的卷积层使得提取的特征更加抽象,从而在测试集上得到更好的准确率。同时,层次过深又阻碍了误差反向传播,比如梯度爆炸和梯度弥散,使得参数得不到最优的更新,在训练集合上收敛不到最优。对此引入残差网络,将输入作为旁路恒等映射到输出端,这个映射使得误差反向传播时,保证梯度的稳定。在保持深层次的基础上,使得各层的参数得到很好的更新,有利于模型的收敛。

5、梯度爆炸和梯度消失

 

写的很好的参照:

 

https://blog.csdn.net/qq_25737169/article/details/78847691

简单理解,就是在反向传播的算法过程中,由于我们使用了是矩阵求导的链式法则,有一大串连乘,如果连乘的数字在每层都是小于1的,则梯度越往前乘越小,导致梯度消失,而如果连乘的数字在每层都是大于1的,则梯度越往前乘越大,导致梯度爆炸。

比如我们在前一篇反向传播算法里面讲到了δ的计算,可以表示为:

 技术图片

如果不巧我们的样本导致每一层∂zl+1/∂zl都小于1,则随着反向传播算法的进行,我们的δl会随着层数越来越小,甚至接近越0,导致梯度几乎消失,进而导致前面的隐藏层的W,b参数随着迭代的进行,几乎没有大的改变,更谈不上收敛了。这个问题目前没有完美的解决办法。

导致梯度消失和梯度爆炸的原因:

两种情况下梯度消失经常出现,一是在深层网络中,二是采用了不合适的损失函数,比如sigmoid。梯度爆炸一般出现在深层网络和权值初始化值太大的情况下梯度消失、爆炸,其根本原因在于反向传播训练法则,属于先天不足

从深层网络角度来讲,不同层学习速度差异很大,表现为网络中靠近输出的层学习的情况很好,靠近输入的层学习的很慢,有时甚至训练了很久,前几层的权值和刚开始随机初始化的值差不多。

解决梯度消失和梯度爆炸的方法:

由于导致这两种现象产生的根本原始是反向传播训练法则,所以可以从对w的控制以及激活函数着手。

为了避免梯度爆炸可以通过梯度剪切(这样处理其实并不粗糙,有些论文中也是这样处理的)和正则化的手段,从激活函数的选取方面选用relu激活函数。

通过合理的初始化权重能够减小梯度消失和梯度爆炸的情况,引入batch_norm也能一定程度减小梯度消失和梯度爆炸的情况。

 

 

 

 

 

 

 

 

 

深度学习之基础篇(三)

标签:结果   情况   lib   根据   表示   一致性   加速   相交   参数   

原文地址:https://www.cnblogs.com/dyl222/p/10982500.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!