标签:关于 orm 更新 参考 pen 导数 article learning frame
假设有一个神经网络的输入W遵循某种分布,对于一组固定的参数(样本),w的分布也就是ReLU的输入的分布。假设ReLU输入是一个低方差中心在+0.1的高斯分布。
在这个场景下:
现在,假设在随机反向传播的过程中,有一个巨大的梯度经过ReLU,由于ReLU是打开的,将会有一个巨大的梯度传给输入(w)。这会引起输入w巨大的变化,也就是说输入w的分布会发生变化,假设输入w的分布现在变成了一个低方差的,中心在-0.1高斯分布。
在这个场景下:
发生了什么?只是ReLU函数的输入的分布函数发生了很小的改变(-0.2的改变),导致了ReLU函数行为质的改变。我们越过了0这个边界,ReLU函数几乎永久的关闭了。更重要的是ReLU函数一旦关闭,参数w就得不到更新,这就是所谓的‘dying ReLU’。
(译者:下面有一段关于神经元死亡后能够复活的讨论,未翻译)
从数学上说,这是因为ReLU的数学公式导致的
r(x)=max(x,0)r(x)=max(x,0)
导数如下
Δxr(x)=1(x>0)Δxr(x)=1(x>0)
所以可以看出,如果在前向传播的过程中ReLU is close,那么反向传播时,ReLU也是close的。
标签:关于 orm 更新 参考 pen 导数 article learning frame
原文地址:https://www.cnblogs.com/Time-LCJ/p/9235711.html