线性回归

时间：2018-09-28 17:37:03 阅读：112 评论：0 收藏：0 [点我收藏+]

标签：data sig rand tle msu cti false gradient 证明

最大似然估计

vanishingGrandient

神经网络中的训练难点

前一层的学习率远远低于后一层的学习率

$δ_{j}^{l} = \frac{\partial C}{\partial b_{j}^{l}}$

造成 vaninshing gradient problem 的原因

$z_{j} = w_{j} a_{j - 1} + b_{j}$

$?C?b1=σ'(z1)?w2?σ'(z2)?w3?σ'(z3)?w4?σ'(z4)??C?a4?C?b1=σ'(z1)?w2?σ'(z2)?w3?σ'(z3)?w4?σ'(z4)??C?a4$

简单证明:

对于 $b_{1}$

$?C?b1\approxΔCΔb1?C?b1\approxΔCΔb1$

$a_{1} = σ (z_{1}) = σ (w_{q} a_{0} + b_{1})$

$Δ a_{1} \approx \frac{\partial σ (w_{1} a_{0} + b_{1})}{\partial b_{1}} Δ b_{1} = σ^{'} (z_{1}) Δ b_{1}$

$a_{1} 的变化又引起 z_{2} 的变化 : z_{2} = w_{2} \cdot a_{1} + b 2$

$Δ z_{2} \approx \frac{\partial z_{2}}{\partial a_{1}} Δ a_{1} = w_{2} Δ a_{1}$

所以
$Δ z_{2} \approx σ^{'} (z_{1}) w_{2} Δ b_{1}$

$\frac{\partial C}{\partial b_{1}} = σ^{'} (z_{1}) \cdot w_{2} \cdot σ^{'} (z_{2}) \cdot w_{3} \cdot σ^{'} (z_{3}) \cdot w_{4} \cdot σ^{'} (z_{4}) \cdot \frac{\partial C}{\partial a_{4}}$

$σ^{'}$

使用Rel解决vanishing gradient问题

sigmod函数造成输出层的activation大部分饱和

解决vanishing gradient方法

Sigmoid unit
$f(x)=11+e(?x)f(x)=11+e(?x)Tanh unitf(x)=tanh(x)f(x)=tanh(x)Rectified linear unit(ReLU)f(x)=\infty\sumi=1σ(x?i+0.5)\approxlog(1+ex)f(x)=\sumi=1\inftyσ(x?i+0.5)\approxlog(1+ex)$

softplus $l o g (1 + e^{x})$

总结:
sigmoid和ReL函数的区别

igmoid函数值在[0, 1], ReL函数值在[0, ∞], 所以sigmoid函数方面来描述概率, 而ReL适合用来描述实数
Sigmoid函数的gradient随着x增大或减小和消失 ReL 函数不会: gradient = 0 (if x < 0), gradient = 1 (x > 0)

Rectified Linear Unit在神经网络中的优势:

不会产生vanishing gradient的问题

线性回归

标签：data sig rand tle msu cti false gradient 证明

原文地址：https://www.cnblogs.com/biscsib/p/9719558.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行