标签:data sig rand tle msu cti false gradient 证明
最大似然估计
神经网络中的训练难点
前一层的学习率远远低于后一层的学习率
δlj=?C?bljδjl=?C?bjl
zj=wjaj?1+bjzj=wjaj?1+bj
?C?b1=σ′(z1)?w2?σ′(z2)?w3?σ′(z3)?w4?σ′(z4)??C?a4?C?b1=σ′(z1)?w2?σ′(z2)?w3?σ′(z3)?w4?σ′(z4)??C?a4
对于b1b1的一个小变化引起CC的变化
?C?b1≈ΔCΔb1?C?b1≈ΔCΔb1
a1=σ(z1)=σ(wqa0+b1)a1=σ(z1)=σ(wqa0+b1)
Δa1≈?σ(w1a0+b1)?b1Δb1=σ′(z1)Δb1Δa1≈?σ(w1a0+b1)?b1Δb1=σ′(z1)Δb1
a1的变化又引起z2的变化:z2=w2?a1+b2a1的变化又引起z2的变化:z2=w2?a1+b2
Δz2≈?z2?a1Δa1=w2Δa1Δz2≈?z2?a1Δa1=w2Δa1
所以
Δz2≈σ′(z1)w2Δb1Δz2≈σ′(z1)w2Δb1
依次可以推出
ΔC=σ′(z1)?w2?σ′(z2)?w3?σ′(z3)?w4?σ′(z4)??C?a4Δb1ΔC=σ′(z1)?w2?σ′(z2)?w3?σ′(z3)?w4?σ′(z4)??C?a4Δb1
?C?b1=σ′(z1)?w2?σ′(z2)?w3?σ′(z3)?w4?σ′(z4)??C?a4?C?b1=σ′(z1)?w2?σ′(z2)?w3?σ′(z3)?w4?σ′(z4)??C?a4
σ′σ′函数的最大值为 0.25
按照平均随机从正太分布(0,1)(0,1)中随机产生权重的方法 大部分|w|<1|w|<1
所以 |wjσ′(zj)|<0.25|wjσ′(zj)|<0.25
对以上公式的多项乘积来讲,层数越多,连续乘积越小
使用Rel解决vanishing gradient问题
sigmod函数造成输出层的activation大部分饱和
解决vanishing gradient方法
Sigmoid unit
f(x)=11+e(?x)f(x)=11+e(?x)
Tanh unit
f(x)=tanh(x)f(x)=tanh(x)
Rectified linear unit(ReLU)
f(x)=∞∑i=1σ(x?i+0.5)≈log(1+ex)f(x)=∑i=1∞σ(x?i+0.5)≈log(1+ex)
softpluslog(1+ex)log(1+ex)函数可以被max(0,x+N(0,1))max(0,x+N(0,1))函数模拟
max函数叫做Rectified Linear Function(ReL)
总结:
sigmoid和ReL函数的区别
igmoid函数值在[0, 1], ReL函数值在[0, ∞], 所以sigmoid函数方面来描述概率, 而ReL适合用来描述实数
Sigmoid函数的gradient随着x增大或减小和消失 ReL 函数不会: gradient = 0 (if x < 0), gradient = 1 (x > 0)
不会产生vanishing gradient的问题
标签:data sig rand tle msu cti false gradient 证明
原文地址:https://www.cnblogs.com/biscsib/p/9719558.html