变分贝叶斯VBEM 由浅入深

时间：2017-09-10 13:28:55 阅读：152 评论：0 收藏：0 [点我收藏+]

标签：最小 size learn tar structure lan 过程 andrew ng struct

　　变分贝叶斯EM指的是变分贝叶斯期望最大化（VBEM, variational Bayes expectation maximization），这种算法基于变分推理，通过迭代寻找最小化KL(Kullback-Leibler)距离的边缘分布来近似联合分布，同时利用mean field 近似减小联合估计的复杂度。

　　变分贝叶斯EM方程最早是由BEAL M J. 在其论文《Variational Algorithms for Approximate Bayesian Inference》[D], London, UK: University College London, 2003里所提出的[1] 。其具体算法可表示为：在第i次VBEM迭代中，参数分布的更新方程式可表示为VBE步和VBM步。

在VBEM算法中，VBE步骤和VBM步骤均是关于后验分布求均值的，因此隐参数和未知参数之间不再存在区别。

一、《VBEM算法由浅入深》

1，EM算法讲得比较直观明了的资料是Andrew NG的machine learning课程的讲稿。CS 229: Machine Learning (Course handouts)，第八章就是专门讲EM算法

2，EM的一些code实现。比如MachineLearning-C---code/main.cpp at master · pennyliang/MachineLearning-C---code · GitHub。
3，熟悉完EM算法之后，可以去看变分推断了，关于变分推断的方法，D.Blei一直在推。笔记在此https://www.cs.princeton.edu/courses/archive/fall11/cos597C/lectures/variational-inference-i.pdf。文章在此https://arxiv.org/abs/1601.00670。笔记是对文章的总结。
4，结合了EM和variational inference的变分EM了，这个可以看香港大学的一份PPT，讲得是使用变分EM推导LDA的过程，很详。http://www.cse.ust.hk/~lzhang/teach/6931a/slides/lda-zhou.pdf

二、采样和变分

1、Gibbs采样和变分

Gibbs采样：使用邻居结点（相同文档的词）的主题采样值

变分：采用相邻结点的期望。n

这使得变分往往比采样算法更高效：用一次期望计算代替了大量的采样。直观上，均值的信息是高密(dense)的，而采样值的信息是稀疏(sparse)的。

2、变分概述

变分既能够推断隐变量，也能推断未知参数，是非常有力的参数学习工具。其难点在于公式演算略复杂，和采样相对：一个容易计算但速度慢，一个不容易计算但运行效率高。

平均场方法的变分推导，对离散和连续的隐变量都适用。在平均场方法的框架下，变分推导一次更新一个分布，其本质为坐标上升。可以使用模式搜索(pattern search)、基于参数的扩展(parameter expansion)等方案加速

有时假定所有变量都独立不符合实际，可使用结构化平均场(structured mean field)，将变量分成若干组，每组之间独立

变分除了能够和贝叶斯理论相配合得到VB（变分贝叶斯），还能进一步与EM算法结合，得到VBEM，用于带隐变量和未知参数的推断

变分贝叶斯VBEM 由浅入深

标签：最小 size learn tar structure lan 过程 andrew ng struct

原文地址：http://www.cnblogs.com/smuxiaolei/p/7500634.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行