这部分 cover 两个比较特殊的情形,一个是 Gaussian networks,一个是 exponential family。
正态分布常见的参数化策略是均值 和协方差矩阵 ,另一种是使用 information matrix/precision matrix,即 ,另可以用所谓 potential vector 代替 ,即 。小结一下如下
针对 Gaussian 分布有些常见的结论,比如 margin/conditional distribution,相关与独立性的关系这里不再赘述。
常见的 Gaussian Bayesian network 是指所有的 r.v.s 是 Gaussian,且 CPD 都是 LG(linear Gaussian)。可以证明对任意在 上的 Gaussian 分布,以及任意的 ordering(这里假定就是顺序的),可以构造对应的 BN 和图,使得 的 parent 是 ,CPD 都是 LG 且对应的图是 minimal I-map。
如果从 MRF 的角度来看,二次型部分定义了一个 pairwise Markov network,我们称为 GMRF,我们可以容易的证明,
都能证明这是一个合法的 GMRF。
这里的指数族方面的分析并不从具体的例子(如 Gaussian 或者 Bernoulli)开始。我们直接定义
其中 是充分统计量(feature),参数空间 是凸子集,而 是自然参数函数(从 moment parameter 映射到 canonical parameter?),而 是辅助测度,这可以看成是一个 MRF。当 是 identity function 时,这是一个 log-linear model。这样我们根据这些 sufficient statistics 就能知道这个 MRG 的结构了。值得注意的是一般说来 BN 通过合适的 CPD 可能能得到 exponential family,但是一般都不是线性关系。
有了一般形式后,我们可以方便计算这个分布的熵
这提示我们一般来说对于一个 MRF 而言其 entropy 具有类似的形式(log partition function – sum of expectation of log factor)。事实上对于 BN 来说,由于 为 1,相反更简单,并且由于 decouple 之后我们可以用条件熵表达出最后的联合熵。这样很容易证明,任意一个与某个 BN consistent 的分布的熵处于对此结构分别最大或者最小化熵之间。
对任意的分布 ,我们可以获得对一个 exponential family 的相对熵(KL divergence):
特别的,如果 ,则
类似可以导出 BN 的情形。
我们根据以上定义的 relative entropy 可以定义两个方向的投影(将分布 投影到分布集合 上):
为什么这么称呼这两种投影呢?我们知道 M-projection 中 导致我们尽量的在 的 support 处增大 ,这样就会得到一个相对较平的近似(方差较大);而 I-projection 对应 ,会某种程度上要求减少 entropy,即相对更集中的反应 mode 区域的性质。
从理论上研究的话 M-projection 更容易一些,因为 I-projection 里面两项都存在贡献,而如果我们不能对 做一些假设就很难进行下去。对 M-projection 来说,我们可以限定 在某些简单的分布族上,比如 exponential family。
一个有趣的结论是如果我们限定 是任意独立的,那么 M-projection 就是 的 marginal distribution 的乘积。如果限定在指数族上,则得到的 满足 ,即充分统计量(feature)一阶矩在两个分布下能够 matching。对于给定图的 BN 的限定来说我们得到的 必须满足 对应的条件分布。
我们可以回想一下一些常见的做法:
后面我们将开始学习 inference,正式进入第二部分。
——————-
And God said to him in a dream, Yes, I know that you did this
in the integrity of your heart; for I also withheld you from sinning against me:
therefore suffered I you not to touch her.
原文地址:http://www.cnblogs.com/focus-ml/p/3775443.html