标签:使用 https ted stride 代码 深度 大小 orm 产生
转自
在深度学习基础网络不断进化的过程中,可以发现新的模型不仅性能有极大地提升,网络的复杂度通常也会更低。深度学习网络模型的复杂度直接关系到其实际应用中的速度与可行性,因此这里总结一下 CNN 复杂度的含义与计算方式。
通常,我们假设计算机运行一行基础代码需要一次运算,那么模型的时间复杂度即为模型的运算次数,用浮点运算次数 FLOPs(FLoating-point OPerations) 表示。首先来看一个最简单的单层卷积的时间复杂度。
其中,
而特征图的尺寸 M 又与输入矩阵大小 X,卷积核尺寸 K,Padding 和步长 Stride 有关,其计算公式为:
M = (X - K + 2 * Padding )/Stride + 1
注:为了方便说明,上述所提到的卷积核尺寸 K 与输入矩阵大小 X 均为正方形;
且为了简洁,省略了模型中的偏置 bias。
对于整体的卷积网络而言,其时间复杂度的计算方式为各层复杂度的累加。其计算方式如下:
其中,
在深度学习中,空间复杂度一般指的是访存量,包括两个部分:参数量,输出特征图。
参数量:模型所有带参数的层的权重参数总量(即模型体积,下式左半部分)。
特征图:模型在实时运行过程中,每层输出的特征图大小(下式右半部分)。
注:实际上有些层(例如 ReLU)其实是可以通过原位运算完成的,此时就不用统计输出特征图了。
感受野是深度学习中最为重要的概念之一,定义为:在卷积神经网络CNN中,决定某一层输出结果中一个元素所对应的输入层的区域大小,被称作感受野(Receptive Field)。通俗来说就是卷积层输出的一个点映射到输入矩阵上的区域大小。感受野的大小直接影响到模型的输出特征,如对于目标检测模型,不同尺寸的目标所适配的感受野大小也不同,因此为了让模型能够适应多尺度的目标检测,通常会借助图像金字塔,或融合多个卷积层的特征,以获得最佳的检测性能。
为了更直观的理解感受野,可以借助如下的示意图(为了方便,将二维简化成一维)。这是一个三层的 CNN 网络,每一层卷积核的 kernel_size=3, stride=1 ,那么最上层的特征所对应的感受野为7x7。
其中 RF 表示特征感受野大小, l 表示层数,l=0 表示输入层, 此时 RF0=1 , feature_stride_0=1 。
根据感受野的计算公式可以得到每一层的感受野大小:
第一层
第二层
第三层
但如果有dilated conv的话,计算公式为
深度学习的模型训练通常采用梯度更新的方法,且一般层数越深,就可以处理更为复杂的问题。但是随之也带了许多弊端,如梯度消失与梯度爆炸。
神经网络的反向传播是逐层对函数偏导相乘,因此当神经网络层数非常深的时候,最后一层产生的偏差就因为乘了很多的小于1的数而越来越小,最终就会变为0,从而导致层数比较浅的权重没有更新,这就是梯度消失。
产生的原因:
梯度爆炸与梯度消失类似,当每层的偏导数值都大于1时,经过多层的权重更新之后,梯度就会以指数形式增加,即为梯度爆炸。
产生原因:
逐层训练加微调
该方法由 Geoffrey Hinton 于2006年提出,具体流程为每次只训练一层神经网络,待权重稳定之后,再使用该层网络的输出进行后一层网络的输入,重复该步骤至训练所有网络层。最后再对整个模型进行finetune,得到最优的模型。
梯度剪切
梯度剪切这个方案主要是针对梯度爆炸提出的,其思想是设置一个梯度剪切阈值,然后更新梯度的时候,如果梯度超过这个阈值,那么就将其强制限制在这个范围之内。这可以防止梯度爆炸。
权重正则化
比较常见的是L1正则,和L2正则,在各个深度框架中都有相应的API可以使用正则化。
relu、leakrelu、elu等激活函数
Relu: 如果激活函数的导数为1,那么就不存在梯度消失爆炸的问题了,每层的网络都可以得到相同的更新速度,relu就这样应运而生。
batchnorm
batchnorm全名是batch normalization,简称BN,即批规范化,通过规范化操作将输出信号x规范化到均值为0,方差为1,保证网络的稳定性。
残差结构
残差结构中的 shortcut 有效地避免了梯度消失与爆炸问题。
LSTM
LSTM全称是长短期记忆网络(long-short term memory networks),是不那么容易发生梯度消失的,主要原因在于LSTM内部复杂的“门”(gates),如下图,LSTM通过它内部的“门”可以接下来更新的时候“记住”前几次训练的”残留记忆“,因此,经常用于生成文本中。
标签:使用 https ted stride 代码 深度 大小 orm 产生
原文地址:https://www.cnblogs.com/danpe/p/10774125.html