深度学习方法：受限玻尔兹曼机RBM（三）模型求解，Gibbs sampling

时间：2015-04-23 00:04:29 阅读：665 评论：0 收藏：0 [点我收藏+]

欢迎转载，转载请注明：本文出自Bin的专栏blog.csdn.net/xbinworld。
技术交流QQ群：433250724，欢迎对算法、技术、应用感兴趣的同学加入。

接下来重点讲一下RBM模型求解方法，其实用的依然是梯度优化方法，但是求解需要用到随机采样的方法，常见的有：Gibbs Sampling和对比散度(contrastive divergence, CD[8])算法。

RBM目标函数

假设给定的训练集合是 $S = \{v^i\}$ ，总数是 $n_s$ ，其中每个样本表示为 $\textbf{v}^{i} = (v_1^i, v_2^i, \dots , v_{n_v}^i)$ ，且都是独立同分布i.i.d的。RBM采用最大似然估计，即最大化

ln L S = ln \prod i = 1 n s P (v i) = \sum i = 1 n s ln P (v i)

$\begin{equation} \ln L_S = \ln \prod_{i=1}^{n_s}P(\textbf{v}^i) = \sum_{i=1}^{n_s}\ln P(\textbf{v}^i) \end{equation}$

参数表示为 $\theta = (W, \textbf{a}, \textbf{b})$ ，因此统一的参数更新表达式为：

θ = θ + η ? ln L S ? θ

$\begin{equation} \theta = \theta + \eta\frac{\partial \ln L_S}{\partial \theta} \end{equation}$
其中，

η $\eta$ 表示学习速率。因此，很明显，只要我们可以求解出参数的梯度，我们就可以求解RMB模型了。我们先考虑任意单个训练样本（

v0 $\textbf{v}^0$ ）的情况，即

L S = ln P (v 0) = ln (1 Z \sum h e ? E (v 0, h)) = ln \sum h e ? E (v 0, h) ? ln \sum v, h e ? E (v, h)

$\begin{equation} L_S = \ln P(\textbf{v}^0) =\ln(\frac{1}{Z}\sum_{\textbf{h}}e^{-E(\textbf{v}^0,\textbf{h})})\=\ln\sum_{\textbf{h}}e^{-E(\textbf{v}^0,\textbf{h})} - \ln \sum_{\textbf{v},\textbf{h}}e^{-E(\textbf{v},\textbf{h})} \end{equation}$
其中

v $\textbf{v}$ 表示任意的训练样本，而

v0 $\textbf{v}^0$ 则表示一个特定的样本。

? L S ? θ = ? ln P ( v 0 ) ? θ = ? ? θ (ln \sum h e ? E (v 0, h)) ? ? ? θ (ln \sum v, h e ? E (v, h)) = ? 1 \sum h e ? E ( v 0 , h ) \sum h e ? E (v 0, h) ? E ( v , h ) ? θ + 1 \sum v , h e ? E ( v , h ) \sum v, h e ? E (v, h) ? E ( v , h ) ? θ = ? \sum h P (h | v 0) ? E ( v 0 , h ) ? θ + \sum v, h P (h, v) ? E ( v , h ) ? θ

$\begin{equation} \frac{\partial L_S}{\partial \theta} = \frac{\partial\ln P(\textbf{v}^0)}{\partial \theta}\=\frac{\partial}{\partial\theta}(\ln\sum_{\textbf{h}}e^{-E(\textbf{v}^0,\textbf{h})}) - \frac{\partial}{\partial\theta}(\ln \sum_{\textbf{v},\textbf{h}}e^{-E(\textbf{v},\textbf{h})})\=-\frac{1}{\sum_{\textbf{h}}e^{-E(\textbf{v}^0,\textbf{h})}}\sum_{\textbf{h}}e^{-E(\textbf{v}^0,\textbf{h})}\frac{\partial E(\textbf{v},\textbf{h})}{\partial\theta} + \frac{1}{\sum_{\textbf{v},\textbf{h}}e^{-E(\textbf{v},\textbf{h})}}\sum_{\textbf{v},\textbf{h}}e^{-E(\textbf{v},\textbf{h})}\frac{\partial E(\textbf{v},\textbf{h})}{\partial\theta}\=-\sum_{\textbf{h}}P(\textbf{h}|\textbf{v}^0)\frac{\partial E(\textbf{v}^0,\textbf{h})}{\partial\theta} + \sum_{\textbf{v},\textbf{h}}P(\textbf{h},\textbf{v})\frac{\partial E(\textbf{v},\textbf{h})}{\partial\theta} \end{equation}$

上面式子的两个部分的含义是期望——左边是梯度 $\frac{\partial E(\textbf{v}^0,\textbf{h})}{\partial\theta}$ 在条件概率分布 $P(\textbf{h}|\textbf{v}^0)$ 下的期望；右边是梯度 $\frac{\partial E(\textbf{v},\textbf{h})}{\partial\theta}$ 在联合概率分布 $P(\textbf{h},\textbf{v})$ 下的期望。要求前面的条件概率是比较容易一些的，而要求后面的联合概率分布是非常困难的，因为它包含了归一化因子 $Z$ （对所有可能的取值求和，连续的情况下是积分），因此我们采用一些随机采样来近似求解。把上面式子再推导一步，可以得到，

? L S ? θ = ? \sum h P (h | v 0) ? E ( v 0 , h ) ? θ + \sum v P (v) \sum h P (h | v) ? E ( v , h ) ? θ

$\begin{equation} \frac{\partial L_S}{\partial \theta} =-\sum_{\textbf{h}}P(\textbf{h}|\textbf{v}^0)\frac{\partial E(\textbf{v}^0,\textbf{h})}{\partial\theta} + \sum_{\textbf{v}}P(\textbf{v})\sum_{\textbf{h}}P(\textbf{h}|\textbf{v})\frac{\partial E(\textbf{v},\textbf{h})}{\partial\theta} \end{equation}$

因此，我们重点就是需要就算 $\sum_{\textbf{h}}P(\textbf{h}|\textbf{v})\frac{\partial E(\textbf{v},\textbf{h})}{\partial\theta}$ ，特别的，针对参数 $W, \textbf{a}, \textbf{b}$ 来说，有

\sum h P (h | v) ? E ( v , h ) ? w i j = ? \sum h P (h | v) h i v j = ? \sum h P (h i | v) P (h ? i | v) h i v j = ? \sum h i P (h i | v) \sum h ? i P (h ? i | v) h i v j = ? \sum h i P (h i | v) h i v j = ? (P (h i = 1 | v) ? 1 ? v j + P (h i = 0 | v) ? 0 ? v j) = ? P (h i = 1 | v) v j

$\begin{equation} \sum_{\textbf{h}}P(\textbf{h}|\textbf{v})\frac{\partial E(\textbf{v},\textbf{h})}{\partial w_{ij}}= -\sum_{\textbf{h}}P(\textbf{h}|\textbf{v})h_i v_j\=-\sum_{\textbf{h}}P(h_i|\textbf{v})P(h_{-i}|\textbf{v})h_i v_j\=-\sum_{h_i}P(h_i|\textbf{v})\sum_{h_{-i}}P(h_{-i}|\textbf{v})h_i v_j\=-\sum_{h_i}P(h_i|\textbf{v})h_i v_j\=-(P(h_i=1|\textbf{v})\cdot 1 \cdot v_j + P(h_i=0|\textbf{v})\cdot 0 \cdot v_j)\=-P(h_i=1|\textbf{v}) v_j \end{equation}$

类似的，我们可以很容易得到：

\sum h P (h | v) ? E ( v , h ) ? a i = ? v i

$\begin{equation} \sum_{\textbf{h}}P(\textbf{h}|\textbf{v})\frac{\partial E(\textbf{v},\textbf{h})}{\partial a_i}=-v_i \end{equation}$

\sum h P (h | v) ? E ( v , h ) ? b j = ? P (h i = 1 | v)

$\begin{equation} \sum_{\textbf{h}}P(\textbf{h}|\textbf{v})\frac{\partial E(\textbf{v},\textbf{h})}{\partial b_j}=-P(h_i=1|\textbf{v}) \end{equation}$

于是，我们很容易得到，

? ln P ( v 0 ) ? w i j = ? \sum h P (h | v 0) ? E ( v 0 , h ) ? w i j + \sum v P (v) \sum h P (h | v) ? E ( v , h ) ? w i j = P (h i = 1 | v 0) v 0 j ? \sum v P (v) P (h i = 1 | v) v j

$\begin{equation} \frac{\partial \ln P(\textbf{v}^0)}{\partial w_{ij}} = -\sum_{\textbf{h}}P(\textbf{h}|\textbf{v}^0)\frac{\partial E(\textbf{v}^0,\textbf{h})}{\partial w_{ij}} + \sum_{\textbf{v}}P(\textbf{v})\sum_{\textbf{h}}P(\textbf{h}|\textbf{v})\frac{\partial E(\textbf{v},\textbf{h})}{\partial w_{ij}}\=P(h_i=1|\textbf{v}^0) v_j^0 - \sum_{\textbf{v}}P(\textbf{v})P(h_i=1|\textbf{v}) v_j \end{equation}$

? ln P ( v 0 ) ? a i = v 0 i ? \sum v P (v) v i

$\begin{equation} \frac{\partial \ln P(\textbf{v}^0)}{\partial a_i} = v_i^0 - \sum_{\textbf{v}}P(\textbf{v}) v_i \end{equation}$

? ln P ( v 0 ) ? b i = P (h i = 1 | v 0) ? \sum v P (v) P (h i = 1 | v)

$\begin{equation} \frac{\partial \ln P(\textbf{v}^0)}{\partial b_i} = P(h_i=1|\textbf{v}^0) - \sum_{\textbf{v}}P(\textbf{v})P(h_i=1|\textbf{v}) \end{equation}$

上面求出了一个样本的梯度，对于 $n_s$ 个样本有

? L S ? w i j = \sum m = 1 n s [P (h i = 1 | v m) v m j ? \sum v P (v) P (h i = 1 | v) v j]

$\begin{equation} \frac{\partial L_S}{\partial w_{ij}} =\sum_{m=1}^{n_s}\left[P(h_i=1|\textbf{v}^m) v_j^m - \sum_{\textbf{v}}P(\textbf{v})P(h_i=1|\textbf{v}) v_j\right] \end{equation}$

? L S ? a i = \sum m = 1 n s [v m i ? \sum v P (v) v i]

$\begin{equation} \frac{\partial L_S}{\partial a_i} = \sum_{m=1}^{n_s}\left[v_i^m - \sum_{\textbf{v}}P(\textbf{v}) v_i\right] \end{equation}$

? L S ? b i = \sum m = 1 n s [P (h i = 1 | v m) ? \sum v P (v) P (h i = 1 | v)]

$\begin{equation} \frac{\partial L_S}{\partial b_i} = \sum_{m=1}^{n_s}\left[P(h_i=1|\textbf{v}^m) - \sum_{\textbf{v}}P(\textbf{v})P(h_i=1|\textbf{v}) \right] \end{equation}$

到这里就比较明确了，主要就是要求出上面三个梯度；但是因为不好直接求概率分布 $P(\textbf{v})$ ，前面分析过，计算复杂度非常大，因此采用一些随机采样的方法来得到近似的解。看这三个梯度的第二项实际上都是求期望，而我们知道，样本的均值是随机变量期望的无偏估计。

Gibbs Sampling

很多资料都有提到RBM可以用Gibbs Sampling来做，但是具体怎么做不讲（是不是有点蛋疼？），可能很多人也不清楚到底怎么做。下面稍微介绍一下。

吉布斯采样（Gibbs sampling），是MCMC方法的一种，具体可以看我前面整理的随机采样MCMC的文章。总的来说，Gibbs采样可以从一个复杂概率分布 $P(X)$ 下生成数据，只要我们知道它每一个分量的相对于其他分量的条件概率 $P(X_k|X_{-k})$ ，就可以对其进行采样。而RBM模型的特殊性，隐藏层神经元的状态只受可见层影响（反之亦然），而且同一层神经元之间是相互独立的，那么就可以根据如下方法依次采样：

技术分享

也就是说 $h_i$ 是以概率 $P(h_i|\textbf{v}_0)$ 为1，其他的都类似。这样当我们迭代足够次以后，我们就可以得到满足联合概率分布 $P(\textbf{v},\textbf{h})$ 下的样本 $(\textbf{v},\textbf{h})$ ，其中样本 $(\textbf{v})$ 可以近似认为是 $P(\textbf{v})$ 下的样本，下图也说明了这个迭代采样的过程：
技术分享
有了样本 $(\textbf{v})$ 就可以求出上面写到的三个梯度（ $\frac{\partial L_S}{\partial w_{ij}} ,\frac{\partial L_S}{\partial a_i} ,\frac{\partial L_S}{\partial b_i}$ ）了，用梯度上升就可以对参数进行更新了。

看起来很简单是不是？但是问题是，每一次gibbs采样过程都需要反复迭代很多次以保证马尔科夫链收敛，而这只是一次梯度更新，多次梯度更新需要反复使用gibbs采样，使得算法运行效率非常低。为了加速RBM的训练过程，Hinton等人提出了对比散度（Contrastive Divergence）方法，大大加快了RBM的训练速度，将在下一篇重点讲一下。

OK，本篇先到这里。平时工作比较忙，加班什么的（IT的都这样），晚上回到家比较晚，每天只能挤一点点时间写，写的比较慢，见谅。RBM这一块可以看的资料很多，网上一搜一大堆，还包括hinton的一些论文和Bengio的综述[9]，不过具体手写出来的思路还是借鉴了[7]，看归看，我会自己推导并用自己的语言写出来，大家有什么问题都可以留言讨论。下一篇最后讲一下CD算法，后面有时间再拿code出来剖析一下。

觉得有一点点价值，就支持一下哈！花了很多时间手打公式的说~更多内容请关注Bin的专栏

参考资料
[1] http://www.chawenti.com/articles/17243.html
[2] 张春霞，受限波尔兹曼机简介
[3] http://www.cnblogs.com/tornadomeet/archive/2013/03/27/2984725.html
[4] http://deeplearning.net/tutorial/rbm.html
[5] Asja Fischer, and Christian Igel，An Introduction to RBM
[6] G.Hinton, A Practical Guide to Training Restricted Boltzmann Machines
[7] http://blog.csdn.net/itplus/article/details/19168937
[8] G.Hinton, Training products of experts by minimizing contrastive divergence, 2002.
[9] Bengio, Learning Deep Architectures for AI, 2009

深度学习方法：受限玻尔兹曼机RBM（三）模型求解，Gibbs sampling

标签：rbm 受限玻尔兹曼机 deep-learning 机器学习随机采样

原文地址：http://blog.csdn.net/xbinworld/article/details/45128733

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行