CV第六课

时间：2020-05-23 16:40:34 阅读：52 评论：0 收藏：0 [点我收藏+]

标签：mpi vat RoCE 发布 mic idt 速度 info exp

昨天写的因为没有及时发布，又丢失了，现在重写一遍重点。

1. activation functions

　　技术图片

　　1）总结：一般都用ReLu，因为在x>0时，不会出现梯度消失

　　　　　　可以尝试Leakly ReLu ELU Maxout(参数加倍) tanh（0-centered）

　　　　　　不要用Sigmoid

　　2）Sigmoid： 3个缺点

　　　　1 当x太大或者太小时，函数切线斜率接近于0，在ChainRule，梯度传递时会出现梯度消失。

　　　　2 不是0-centered，会导致Loss收敛速度慢，特别是sigmoid输出值都是正数 [ 0,1 ]，导致input总是 all postive or all negative，在梯度选择时候不会选择下图的蓝线，而是红线。（这点不是很懂）

　　　　3 exp() 函数比较 compitational-expensive

技术图片

　　3）tanh: 1pos 1neg

　　　　1 梯度消失

　　　　2 0-centered

　　4) ReLu 4pos 2neg

　　　　1 x>0时不会出现梯度消失

　　　　2 f(x) = max(0,x) computationally efficient

　　　　3 比 sigmoid tanh 收敛快6倍

　　　　4. 比sigmoid 更符合生物学原理

　　　　1 x<0时梯度消失

　　　　2 不是0-centered

　　5） Leaky ReLu / PReLu /ELU / MAXOUT

　　　　在 x<0时不会梯度消失

2. Data Preprocessing

　　技术图片

　　1)　　一般只做 0-centered 不做 Normalization。

　　　　　因为对于image的像素点来说取值都属于[ 0,255 ]

　　2）　可以按整张图来做平均，也可以按RGB三通道来做平均，但是平均值是所有输入的像素平均

　　　　技术图片

3.Weight Initialization

　　numpy.random.randn()可以生成高斯分布的数

技术图片

　　1）W = 0.01*np.random.randn(D,H)

　　　　1. 对 small networks可以, 对于deeper networks不太行

　　　　技术图片

　　2）W = 1.0*np.random.randn(D,H)

　　　　技术图片

　　3）需要 ‘/2’ 是因为ReLu在x<0初饱和，出现梯度消失

　　技术图片

CV第六课

标签：mpi vat RoCE 发布 mic idt 速度 info exp

原文地址：https://www.cnblogs.com/ChevisZhang/p/12942656.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行