码迷,mamicode.com
首页 > 其他好文 > 详细

线性回归

时间:2018-09-28 17:37:03      阅读:112      评论:0      收藏:0      [点我收藏+]

标签:data   sig   rand   tle   msu   cti   false   gradient   证明   

最大似然估计

 

vanishingGrandient

 

神经网络中的训练难点

前一层的学习率远远低于后一层的学习率

δlj=?C?bljδjl=?C?bjl

造成 vaninshing gradient problem 的原因

zj=wjaj?1+bjzj=wjaj?1+bj

?C?b1=σ(z1)?w2?σ(z2)?w3?σ(z3)?w4?σ(z4)??C?a4?C?b1=σ′(z1)?w2?σ′(z2)?w3?σ′(z3)?w4?σ′(z4)??C?a4

简单证明:

对于b1b1的一个小变化引起CC的变化

?C?b1ΔCΔb1?C?b1≈ΔCΔb1

a1=σ(z1)=σ(wqa0+b1)a1=σ(z1)=σ(wqa0+b1)

Δa1?σ(w1a0+b1)?b1Δb1=σ(z1)Δb1Δa1≈?σ(w1a0+b1)?b1Δb1=σ′(z1)Δb1

a1z2:z2=w2?a1+b2a1的变化又引起z2的变化:z2=w2?a1+b2

Δz2?z2?a1Δa1=w2Δa1Δz2≈?z2?a1Δa1=w2Δa1

所以
Δz2σ(z1)w2Δb1Δz2≈σ′(z1)w2Δb1
依次可以推出
ΔC=σ(z1)?w2?σ(z2)?w3?σ(z3)?w4?σ(z4)??C?a4Δb1ΔC=σ′(z1)?w2?σ′(z2)?w3?σ′(z3)?w4?σ′(z4)??C?a4Δb1

?C?b1=σ(z1)?w2?σ(z2)?w3?σ(z3)?w4?σ(z4)??C?a4?C?b1=σ′(z1)?w2?σ′(z2)?w3?σ′(z3)?w4?σ′(z4)??C?a4

σσ′函数的最大值为 0.25
按照平均随机从正太分布(0,1)(0,1)中随机产生权重的方法 大部分|w|<1|w|<1
所以 |wjσ(zj)|<0.25|wjσ′(zj)|<0.25
对以上公式的多项乘积来讲,层数越多,连续乘积越小


使用Rel解决vanishing gradient问题

sigmod函数造成输出层的activation大部分饱和

解决vanishing gradient方法

Sigmoid unit
f(x)=11+e(?x)f(x)=11+e(?x)
Tanh unit
f(x)=tanh(x)f(x)=tanh(x)
Rectified linear unit(ReLU)
f(x)=i=1σ(x?i+0.5)log(1+ex)f(x)=∑i=1∞σ(x?i+0.5)≈log(1+ex)

softpluslog(1+ex)log(1+ex)函数可以被max(0,x+N(0,1))max(0,x+N(0,1))函数模拟
max函数叫做Rectified Linear Function(ReL)

总结:
sigmoid和ReL函数的区别

  • igmoid函数值在[0, 1], ReL函数值在[0, ∞], 所以sigmoid函数方面来描述概率, 而ReL适合用来描述实数

  • Sigmoid函数的gradient随着x增大或减小和消失 ReL 函数不会: gradient = 0 (if x < 0), gradient = 1 (x > 0)

Rectified Linear Unit在神经网络中的优势:

不会产生vanishing gradient的问题

 

线性回归

标签:data   sig   rand   tle   msu   cti   false   gradient   证明   

原文地址:https://www.cnblogs.com/biscsib/p/9719558.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!