码迷,mamicode.com
首页 > 其他好文 > 详细

CV第六课

时间:2020-05-23 16:40:34      阅读:52      评论:0      收藏:0      [点我收藏+]

标签:mpi   vat   RoCE   发布   mic   idt   速度   info   exp   

昨天写的因为没有及时发布,又丢失了,现在重写一遍重点。

 

1. activation functions

  技术图片

  1) 总结:一般都用ReLu,因为在x>0时,不会出现梯度消失

         可以尝试Leakly ReLu  ELU Maxout(参数加倍)  tanh(0-centered)

         不要用Sigmoid

  2)Sigmoid: 3个缺点

    1 当x太大或者太小时,函数切线斜率接近于0,在ChainRule,梯度传递时会出现梯度消失。

    2 不是0-centered,会导致Loss收敛速度慢,特别是sigmoid输出值都是正数 [ 0,1 ],导致input总是 all postive or all negative,在梯度选择时候不会选择下图的蓝线,而是红线。(这点不是很懂)

    3 exp() 函数 比较 compitational-expensive

              技术图片

  3)tanh:    1pos 1neg

    1 梯度消失

    2 0-centered

   4) ReLu       4pos   2neg

    1 x>0时不会出现梯度消失

    2 f(x) = max(0,x) computationally efficient

    3 比 sigmoid tanh 收敛快6倍

    4. 比sigmoid 更符合生物学原理

 

    1 x<0时 梯度消失

    2 不是0-centered

  5) Leaky ReLu / PReLu  /ELU / MAXOUT

    在 x<0时 不会梯度消失

 

2. Data Preprocessing

  技术图片

 

 

  1)  一般只做 0-centered 不做 Normalization。

     因为对于image的像素点来说  取值都属于[ 0,255 ]

  2) 可以按整张图来做平均,也可以按RGB三通道来做平均,但是平均值是所有输入的像素平均

    技术图片

 

 

3.Weight Initialization    

  numpy.random.randn()可以生成高斯分布的数

技术图片

 

 

  1)W = 0.01*np.random.randn(D,H)   

    1. 对 small networks可以, 对于deeper networks不太行

    技术图片

  2)W = 1.0*np.random.randn(D,H)   

 

     技术图片

 

  3) 需要 ‘/2’ 是因为ReLu在x<0初饱和,出现梯度消失 

   技术图片

 

CV第六课

标签:mpi   vat   RoCE   发布   mic   idt   速度   info   exp   

原文地址:https://www.cnblogs.com/ChevisZhang/p/12942656.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!