码迷,mamicode.com
首页 > 其他好文 > 详细

Latent Dirichlet allocation学习笔记

时间:2014-06-18 21:00:30      阅读:275      评论:0      收藏:0      [点我收藏+]

标签:style   blog   http   com   数据   2014   

LDA是一个关于语料的生成概率模型,基本思想是文档可以表达为隐含主题的随机混合,每个主题刻画为关于词语的分布。

LDA假设在语料D中生成一篇文章w的过程如下:

1.bubuko.com,布布扣 根据泊松分布选在文章长度N

2.   bubuko.com,布布扣  选择主题分布

3.   对于每一个词Wn

    (a) bubuko.com,布布扣根据多项式分布选择一个主题

    (b) bubuko.com,布布扣 根据多项式条件概率分布选择Wn

 一些基本模型的简单假设:

    (1)主题个数k是预先设定的;

    (2)主题和词的概率分布矩阵式一个k*V的矩阵,bubuko.com,布布扣

    (3)文章长度N与其它变量独立

K维的Dirichlet随机变量θ服从以下概率分布

      bubuko.com,布布扣

 给定参数α和β,关于主题混合θ,N个主题z,N个词语w的联合概率分布如下:

      bubuko.com,布布扣

对θ进行积分,对z进行加和得到关于文档的边缘概率分布:

    bubuko.com,布布扣

对单个文档的边缘概率分布进行加和,我们得到关于语料的概率分布:

    bubuko.com,布布扣

 

LDA的图模型的表达如下:

      bubuko.com,布布扣

其中α和β是语料级别的参数,θd 是文档级别参数,对于每一篇文档,该参数不同,Zdn和Wdn是词语级别的参数。

 

一元连续混合

 关于文档的概率分布

bubuko.com,布布扣

本方法与上面比较少了一个步骤,直接通过θ得到词的概率分布,中间不用选择主题z

 

四、与其它隐变量模型之间的关系

bubuko.com,布布扣

1. 一元模型

bubuko.com,布布扣,在没有主题的情况下,只看词语的联合分布

2. 混合一元模型

bubuko.com,布布扣文章中所c有的词语只对应一个主题,即所有的词语都是有同一个主题生成的

3. pLSI(probabilistic latent semantic indexing 潜在意义索引)概率模型

bubuko.com,布布扣,每篇文章可以有多个主题,

但是

a. 概率模型职能用于训练数据,不能用户未来输入的数据

b. 参数个数随着文章个数呈线性增长

c. 每个文档对应的主题分布是相同的

五、推断和参数估计

1. 推断

    推断的关键问题是给定文章计算隐含变量的后验分布

bubuko.com,布布扣

其中:bubuko.com,布布扣

 2. 变分法推断

 上面提到的推断算法是很难实现的,可以在原LDA贝叶斯网络上删除部分边和节点得到以下推断图

bubuko.com,布布扣

该图将θ 和z的依赖独立开来,并且删除w, 可以用以下概率分布描述

bubuko.com,布布扣

根据指定的简化版概率分布,通过最小化交叉熵KL计算γ和Φ来近似θ 和z

bubuko.com,布布扣

得到以下近似求解

bubuko.com,布布扣

而θ 的数学期望如下:

bubuko.com,布布扣

变量推断算法如下:

bubuko.com,布布扣

通过该算法求出γ和Φ

3. 参数估计

  给定语料库D求参数α和β的最大似然估计

bubuko.com,布布扣

然而直接计算上面似然函数比较困难,但是上面讲到的变量推断算法为我们提供了便利的方法。

下面用EM算法进行迭代求解

A. E-step:对于每篇文档求变量参数的优化值bubuko.com,布布扣,步骤如上

B. M-step: 对α和β求最大似然估计

两个步骤迭代进行,直到收敛

 4. 平滑

最好的办法就是应用变量推断的方法进行平滑。其中β是一个k*V的矩阵,每一行都可以看做一个可交换的dirichlet分布,该分布的参数为标量η。

bubuko.com,布布扣

这里的η本质上就是一个先验数据,可以看做一个正则化项

 

Latent Dirichlet allocation学习笔记,布布扣,bubuko.com

Latent Dirichlet allocation学习笔记

标签:style   blog   http   com   数据   2014   

原文地址:http://www.cnblogs.com/fanzhijun/p/3775719.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!