cs231n spring 2017 lecture13 听课笔记

时间：2017-12-09 18:13:46 阅读：402 评论：0 收藏：0 [点我收藏+]

标签：不能一个好的大量 rnn 开始模拟 .com ali

1. 非监督学习

　　监督学习有数据有标签，目的是学习数据和标签之间的映射关系。而无监督学习只有数据，没有标签，目的是学习数据额隐藏结构。

2. 生成模型（Generative Models）

　　已知训练数据，根据训练数据的分布（distribution）生成新的样例。

　　无监督学习中的一个核心问题是估计分布。

技术分享图片

3. PixelRNN 和 PixelCNN

　　依次根据已知的像素估计下一个像素。

技术分享图片

　　PixelRNN（van der Oord et al. NIPS 2016）：利用RNN（LSTM）从角落开始依次生成像素。缺点是非常慢。

技术分享图片

　　PixelCNN（van der Oord et al. NIPS 2016）:利用CNN从角落开始依次生成像素。求像素的最大似然估计。比PixelRNN快，但依旧慢。

技术分享图片

　　PixelRNN和PixelCNN的优点是可以显式地求出概率分布，并且给出评价尺度（evaluation metric），生成的结果也不错。缺点是慢。改进版本是PixelCNN++（Salimans et al. 2017）。

4. Variational Autoencoders （VAE）

　　Autoencoder是一种从没有标签的训练数据学习低维度特征（lower-dimensional feature representation）的方法。最开始是用Linear+nonlinearity（sigmoid）的方法，后来人们用深度的全连接层，再后来人们用ReLU CNN。为什么要“低维度特征”？或者说为什么把输入的维度降低？目的是为了获得可靠的、不变的特征。

　　第一种用法是和监督学习配合使用。在训练阶段，可以再用一个Decoder把低维度特征解码成和输入类似的数据。这样可以建立损失函数。训练完成之后可以把Decoder扔掉，把Encoder出的特征当成某个监督学习的输入，预测出结果，建立Loss function。在有大量没有标签的训练数据和少量有标签的数据的情况下，这样做很有效。图中的 z 叫 “latent factors”。

技术分享图片

　　第二种用法是生成新的数据。对于编码出的 z（“latent factors” ）的分布 p(z)，可以直接选择简单的概率分布，比如高斯。而对于条件概率 p(x|z)，则是比较复杂的，用神经网络来模拟。训练的过程如下图所示，（推导过程完全没听懂。。。）。训练完了之后可以只用Decoder network，渐进地改变z的各个分量（比如z₁表示微笑的程度，z₂表示头的姿态，则可以生成各种头的姿态各种微笑程度的人脸），生成不同的样例x_hat。

技术分享图片

　　Variational Autoencoders的优点：生成模型的主要方法（principled approach）；可以估计q(z|x)（没搞明白这里q是什么。。。），对于其他任务可能是很好的特征描述。缺点：最大化似然估计的下限，而不是直接最大化似然估计，从评估的角度说不如PixelRNN和PixelCNN；相比于GAN，生成的图片比较模糊，质量不高。

5. Generative Adversarial Networks (GAN) （Ian Goodfellow et al., "Generative Adersarial Nets", NIPS 2014）

　　不考虑显式地描述density function，而是根据对抗直接生成样例。我们没有办法直接从复杂的、高维度的训练集分布中生成样例，那么就先从简单的分布生成样例（比如随机噪音），然后从训练集分布学习把这个简单分布生成的样例转变成（transformation）符合训练集分布。神经网络就是用来描述这个复杂的transformation（神经网络的作用似乎一直就是用来描述高维度、非线性的某种函数、映射、转换等等）。该神经网络的输入是随机噪声，输出是符合训练集分布的样例。

　　GAN有两个网络，生成网络（generator network）和区分网络（discriminator network），生成网络尽一切努力生成图片欺骗区分网络，区分网络尽一切努力区分原图和生成的图。

技术分享图片