标签:
介绍三种构造狄利克雷过程的方法
给出了一种显式采样方法,即构造一个有明确定义的G ,使得G满足狄利克雷过程。
构造:第一步,给定一个正实数 ,先从beta分布中构造一个
,
,这里k从1到
;再利用
构造一个
,
。之所以要这样得到
是为了让
,即我们希望得到一个概率质量函数。
第二步,从参数空间 中的一个基分布H 中采样一个参数序列
,这个
是服从分布H的。
第三步,把他们合在一起构成离散分布 ,这便是狄利克雷过程的一个采样。
记为 ~GEM(
).
这种方法并不去显式的构造分布G,而是根据后验分布的性质 。
方法:从狄利克雷过程当中观察得到N个观测值时,这些
的取值可能有K个不同值,记作
,那么下一个观测值
的条件分布为:
,注意这里只取了分布中的期望部分,
是取值为
的个数。
这个东西有一个形象的理解:我们要从一个翁和一个分布H中取彩球,从翁中取球的概率正比于翁中球的个数,从H中取球的概率正比于 。刚开始的时候翁是空的,从H中取球
,放进翁中。如果球是从翁中取出的就放进一只同样颜色的球,这样每次取出颜色为
的球的概率就正比于翁中已有的颜色为
的球。
如果我们从狄利克雷过程中按波利亚瓮方案采样
,它们取K < N 个不同的值
,那么这N 个样本就形成了K 个团簇。也就是说,随机地按波利亚瓮方案采样N 个观察值对应着对整数集合{1,…,N}的一个划分,每一种划分方式都存在一定的概率,描述这种划分的分布叫做中餐馆过程
为了更明显的区分与
,我们把类别标号写成
,
,即
。则有
。
中餐馆过程是一种聚类过程,假设餐馆中没有顾客,刚进来的第一个人随机选择一张桌子坐下,每张桌子代表一类,后进来的顾客按照如下原则选择桌子:以概率 选择第k张已经有人的桌子坐下,以概率
的概率选择一张没有人的桌子坐下。这样人数越多的桌子越有可能聚集更多的顾客形成团簇效果。
中餐馆过程具有一个性质在后面的讨论中要用到——可交换性(exchangeability ).说的是形成划分如果相同,那么与采样顺序是无关的,也就是在形成一个聚类效果之后,无论顾客进入餐馆的顺序如何,这种聚类的概率是相同的。
优势:由于分类中会以概率 引进新的类别,所以这种聚类的聚类个数不需要人为指定。
标签:
原文地址:http://www.cnblogs.com/simayuhe/p/5147631.html