W-GAN系 (Wasserstein GAN、 Improved WGAN)

时间：2018-02-28 01:17:33 阅读：492 评论：0 收藏：0 [点我收藏+]

标签：gen 一个 why com 注意 because 它的 ons inpu

习总结于国立台湾大学：李宏毅老师

Wasserstein GAN 、 Improved Training of Wasserstein GANs

本文outline

一句话介绍WGAN： Using Earth Mover’s Distance to evaluate two distribution Earth Mover‘s Distance（EMD） = Wasserstein Distance

一. WGAN

1. Earth Mover’s Distance（EMD）

EMD: P和Q为两个分布：P分布为一堆土，Q分布为要移到的目标，那么要移动P达到Q，哪种距离更小呢？

技术分享图片

这里有许多种可能的moving plans，利用最小平均距离的moving plans来定义EMD

那么以下是最好的moving plans：

技术分享图片

来用矩阵直观解释移土方案：

技术分享图片

图中每个像素点对应row需要移出多少土到对应column，越亮表示移动越多。注意每一个row的值加起来为对应P行的分布，每个column的值加起来为对应Q行的分布。所以可以有很多的moving plan来实现：

技术分享图片

γ(x_p,x_q)表示从p移动多少土到q， || x_p -x_q ||表示pq之间的距离。上式就是给定一个plan时需要平均移动的距离。那么EMD定义就是

穷举所有plan，EMD为最小的距离（最优的plan）：

2. Why EMD

在更新过程中我们希望P_G的分布和P_data越来越相似：

技术分享图片

但是D_f(P_data||P_G): 因为从JS-divergence来看：无法从G0变到G100，因为G50并没有比G0变小

技术分享图片

用W(P_data, P_G)则不同，G0对应的距离就是d0， G50对应的距离就是G50：所以利用Wasserstein距离时，model就会有动机使得分布趋于真实分布。

技术分享图片

3. 回到GAN框架

我们知道所有的f-divergence都可以写成以下形式：

1）

而Earth Mover’s Distance可以写成以下形式：

技术分享图片 2）

即找一个D使得大括号里的值最大，而限制是D属于1-Lipschitz。

Lipschitz Function：输出的变化小于等于输入的变化， k=1时为 1-Lipschitz ，即变化的不要太猛烈。

栗子：黑线为基准，蓝线变化很猛烈不是1-Lipschitz，而绿线变化缓和属于1-Lipschitz。

技术分享图片

所以回到 2）式，如果没有对D的限制，当D(x1) 和D(x2)为正负无穷时可以最大化2）式，下图左。而现在对D有此限制，则D的取值如下图右：

技术分享图片

D(x1) 和D(x2)差距一定要小于d。下图说明了利用EMD的好处是P_G可以沿着梯度移动到蓝色P_data，而原生GAN的判别器D为而二元分类器，输出为sigmoid函数。对于蓝色和橙色的分布，原生GAN可能为蓝线：对应P_data的输出值为1，对应P_G的输出值为0。所以蓝色曲线在蓝色和橙色分布的梯度为0，根本没有动力去挪动generator的输出来更新。而EMD在两个分布附近都有梯度，可以继续更新。

技术分享图片

WGAN优点： WGAN will provide gradient to push PG towards Pdata

4. WGAN优化

那么怎么梯度更新呢？因为D有了限制，无法直接利用SGD。这里引入一种方法：Weight clipping

就是强制令权重w 限制在c ~ -c之间。在参数更新后，如果w>c，则令w=c，如果w<-c，则令w=-c。我们这样做只为保证：

对权重的限制表示对NN的输入做一个变化，输出的变化总是有限的。实做上对于w进行限制：就可以限制了这条直线的斜率，否则D的输出为一条很斜的直线，且不断变直，给橙色的值越来越小，给蓝色的值越来越大，无法停止。

技术分享图片

5. WGAN 算法

技术分享图片

result：

技术分享图片

原来的GAN是衡量JS-divergence，GAN是把JS-divergence train到底，所有case的结果几乎都是0，不管你generate的image好不好，JS-divergence都是个定值。那Discriminator就不是衡量JS-divergence，D的output就变得没有意义了。但是如果我们用WGAN的话，discriminator衡量的是EMD，而这个earth mover’s distance 衡量的就是两个分布真正的距离。所以看discriminator的loss可以真的表示出generate的图片的好坏。

技术分享图片

二. Improved WGAN

A differentiable function is 1-Lipschitz if and only if it has gradients with norm less than or equal to 1 everywhere.

就是说如果一个函数是1-Lipschitz，那么它的gradients with morm <=1:

注意这里的gradient不是对参数，而是input对output的gradient，即x对D(x)的gradient。

技术分享图片

注意此惩罚项penalty：如果梯度的norm>1就会惩罚，即，因不可能对所有x作积分，所以对sample的x求期望

技术分享图片

那Ppenalty是什么呢，怎么从Ppenalty sample x呢？首先从P_data sample一个点，再从P_G sample一个点，然后在其连线中sample出x，即x是在P_data 和 P_G 之间的区域中sample：

技术分享图片

Only give gradient constraint to the region between ??_???????? and ??_?? because they influence how ??_?? moves to ??_????????

仅仅对P_data 和 P_G 之间的区域的梯度进行限制，因为只有这个区域影响P_G 移向P_data 。

而进一步，Improved WGAN不是让gradient的norm小于1，而是越接近1越好：因为希望P_data的D(x)越大越好， P_G的 D(x)越小越好，然而这个差距总是有限的，所以希望中间的蓝色区域的gradient越大越好，因为蓝色的坡度越陡，P_data 和P_G的差距越大，然而蓝色的gradient的最大值就只能取到1.

技术分享图片