标签:基于 而且 推导 梯度 基本 适合 gradient initial 出现
1.把w初始化为0
在神经网络中,把w初始化为0是不可以的。这是因为如果把w初始化0,那么每一层的神经元学到的东西都是一样的(输出是一样的),而且在bp的时候,每一层内的神经元也是相同的,因为他们的gradient相同。
2.对w随机初始化
初始化容易出现梯度消失或者梯度爆炸的问题。
3.Xavier initialization
基本思想:保证输入和输出的方差一致,这样就可以避免所有输出值都趋向于0。虽然刚开始的推导基于线性函数,但是在一些非线性神经元也很有效。比较适合tanh
4.He initialization
权重的初始化方法是将Xavier初始化的方差乘以2。适合rule激活函数。
标签:基于 而且 推导 梯度 基本 适合 gradient initial 出现
原文地址:https://www.cnblogs.com/happytaiyang/p/11763786.html