标签:通道 解释 渐变 测试数据 加速 Alexnet 使用 反向 高精度
? 过拟合是指模型在训练数据上拟合很好,但是在测试数据上较差的现象。欠拟合是指模型在训练数据上的表现和在测试数据上一样差。
? 在训练数据很少,模型很复杂的情况下容易导致过拟合。
? 防止过拟合的方法有数据增强、使用正则项、迁移学习、模型剪枝等
? 梯度爆炸是指在深度网络模型中,梯度在逐层回传的过程中由于累积效应逐渐变大,甚至超出数值表示的范围,使得模型各层训练不均衡,导致模型结果很差。梯度消失则与梯度爆炸刚好相反,是由于逐层回传的过程中梯度逐渐减少至无穷小,同样导致模型训练效果差。
? ResNet网络认为随着深度神经网络层数的加深,网络的效果不应该比浅层的差,但是实际过程中却出现模型退化的现象,作者分析是因为神经网络很难学习identity map的映射,因此在网络中加速残差块,网络只学习残差,当网络层数增加无法继续提高精度时,网络可以学习0映射(而这是更加容易的),因此解决了深度网络训练过程中随着深度加深的模型退化的现象
218 x 218 x 5
(Width-kernelsize+2*pad)/stride+1
(height-kernelsize+2*pad)/stride+1
异或(XNOR)关系是非线性的,线性激活函数只能解决线性问题,不能解决非线性问题。如果用线性激活代替 ReLU,则神经网络失去逼近非线性函数的能力。
1.网络层数增加了
2.计算量变小了
输入数据本身存在nan值,或者梯度爆炸了(可以降低学习率、或者设置梯度的阈值)
通道降维,保证卷积神经网络可以接受任何尺寸的输入数据
标签:通道 解释 渐变 测试数据 加速 Alexnet 使用 反向 高精度
原文地址:https://www.cnblogs.com/Bonker/p/11588967.html