Deep Learning 论文笔记 (1): Making dropout invariant to transformations of activation functions and inputs

时间：2015-03-10 16:58:38 阅读：162 评论：0 收藏：0 [点我收藏+]

标签：

这是2014年nips workshop的一篇paper。这个paper号称他们提出了invariant dropout，可以对inputs和activation units的additive shift transform（我理解的其实就是加additive noise）具有不变性。

通常如果在每一个input unit和activation unit加了additive noise的话，下一层的activation unit的input（也就是只进行了线性组合还没经过非线性）的variance会增大或者减小。在这种情况下普通的dropout会随着加的additive noise不同而得到不同的结果，也就是作者所谓的variant to additive shift. 如下面五个式子所示：

a_i是原始的节点：

技术分享

a_i + phi 是additive shift transform之后的节点：

技术分享

以上两种情况对应的variance：

技术分享

两种情况的variance之差：

从这个差可以看出来，可正可负，表明additive shift transform之后的variance可能增大也可能减小。

作者的解决方法是对每一个input或者activate节点引入一个新的变量，叫做invariance parameter， beta_j。

技术分享

这个新的参数beta_j是learn出来的。其实就相当于在每一个节点上增加了一个offset，和additive noise很像，但是additive noise的是在已知参数的分布中抽样出来的，但是这里面的beta是学习出来的。所以当每一个节点经过不同的additive shift transform，由于有可以learned adaptive beta这样一个additive shift，会使最后的结果比较stable，因此作者声称他们的方法是additive shift transform invariant的。

本文的中心思想其实就是对每一个节点引入一个learned adaptive shift (beta)去抵消掉人为的故意对每一个节点加的pre-defined additive shift (so called additive shift transform)。所谓的invariant dropout也只是LAS + dropout 针对 No-LAS + dropout (LAS指learned adaptive shift) 而言的，我觉得如果去掉dropout，单纯比较LAS和No-LAS也会有相似的结论，前者也还是additive shift transform invariant的。

最后实验主要跑了MNIST，CIFAR-10，Street View House Numbers (SVHN)几个数据集，invariant dropout的结果比regular dropout的结果要好一点。

Deep Learning 论文笔记 (1): Making dropout invariant to transformations of activation functions and inputs

标签：

原文地址：http://www.cnblogs.com/yyuanad/p/4326130.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行