码迷,mamicode.com
首页 > 其他好文 > 详细

LDA训练过程(吉布斯采样)

时间:2019-12-31 17:07:00      阅读:208      评论:0      收藏:0      [点我收藏+]

标签:ati   没有   分类   概率   出现   分布   过程   编号   方法   


吉布斯采样 (Gibbs Sampling) 首先选取概率向量的一个维度,给定其他维度的变量值当前维度的值,不断收敛来输出待估计的参数。具体地

1.随机给每一篇文档的每一个词 ww,随机分配主题编号 zz
2.统计每个主题 zizi 下出现字 ww 的数量,以及每个文档 nn 中出现主题 zizi 中的词 ww的数量
3.每次排除当前词 ww 的主题分布 zizi,根据其他所有词的主题分类,来估计当前词 ww 分配到各个主题 z1,z2,…,zkz1,z2,…,zk 的概率,即计算 p(zi|z−i,d,w)p(zi|z−i,d,w) (Gibbs updating rule))。得到当前词属于所有主题z1,z2,…,zkz1,z2,…,zk 的概率分布后,重新为词采样一个新的主题 z1z1。用同样的方法不断更新的下一个词的主题,直到每个文档下的主题分布θnθn 和每个主题下的词分布 ?k?k 收敛。
4.最后输出待估计参数,θnθn 和 ?k?k ,每个单词的主题 zn,kzn,k 也可以得到。


LDA 对于每个文档的每一个字都有一个主题下标。但从文档聚类的角度来说,LDA 没有一个文档统一的聚类标签,而是每个字都有一个聚类标签,这个就是主题。LDA 每个字都有可能属于不同的类别,每个文档都有可能属于不同的类别。在大量的迭代后,主题分布和字分布都比较稳定也比较好了,LDA 模型收敛。

LDA训练过程(吉布斯采样)

标签:ati   没有   分类   概率   出现   分布   过程   编号   方法   

原文地址:https://www.cnblogs.com/lxt-/p/12125352.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!