http://blog.csdn.net/pipisorry/article/details/51525308
吉布斯采样的实现问题
本文主要说明如何通过吉布斯采样进行文档分类(聚类),当然更复杂的实现可以看看吉布斯采样是如何采样LDA主题分布的[主题模型TopicModel:隐含狄利克雷分布LDA
]。
关于吉布斯采样的介绍文章都停止在吉布斯采样的详细描述上,如随机采样和随机...
分类:
其他好文 时间:
2016-05-30 14:50:50
阅读次数:
277
七月算法-12月机器学习--第十五次课笔记—主题模型 七月算法(julyedu.com)12月机器学习在线班学习笔记http://www.julyedu.com 复习的知识: 1.,Γ函数 是阶乘在实数上的推广,即实数的阶乘 2,Beta分布 Beta分布的概率密度: 其中系数B为: 两者的关系 1 ...
分类:
编程语言 时间:
2016-05-13 20:24:16
阅读次数:
427
之前几篇文章讲到了文档主题模型,但是毕竟我的首要任务还是做分类任务,而涉及主题模型的原因主要是用于text representation,因为考虑到Topic Model能够明显将文档向量降低维度,当然TopicModel可以做比这更多的事情,但是对于分类任务,我觉得这一点就差不多了。
LDA之前已经说到过,是一个比较完善的文档主题模型,这次试用的是JGibbsLDA开源的LDA代...
分类:
其他好文 时间:
2016-05-07 10:16:11
阅读次数:
463
“庙小妖风大,水浅王八多”。还是这句话,这是业余研究生的文本建模系列之二:关于pLSA。前述就到此。
pLSA:Probabilistic Latent Senmantic Indexing.是Hoffman在1999年提出的基于概率的隐语义分析【1】。之所以说是probabilistic,是因为这个模型中还加入了一个隐变量:主题Z ,也正因为此,它被称之为主题模型。
...
分类:
其他好文 时间:
2016-05-07 10:12:31
阅读次数:
280
Latent Dirichlet Allocation (LDA)是一个主题模型,能够对文本进行建模,得到文档的主题分布。但是LDA得到的每个主题是一个在词项上的多项分布,这个分布非常稀疏。为了更好地刻画语义连贯性,有研究者提出了Gaussian LDA,本文简单介绍该模型。
转载请注明出处:http://blog.csdn.net/u011414416/article/details/511884...
分类:
其他好文 时间:
2016-04-29 15:05:11
阅读次数:
761
主题模型LDA是一个主题模型,关于主题模型的解释有个很通俗的例子: 第一个是:“乔布斯离我们而去了。”
第二个是:“苹果价格会不会降?” 我们一眼就可以看出这两句是有关联的,第一句里面有了“乔布斯”,我们会很自然的把“苹果”理解为苹果公司的产品,它们属于了同一个主题:苹果公司。而像我之前那种计算关联度的时候,即文档之间重复的词语越多越可能相似,是无法达到这个效果的。文档之间重复的词语越多越...
分类:
其他好文 时间:
2016-04-17 23:08:09
阅读次数:
337
Latent Dirichlet Allocation (LDA)是一个主题模型,能够对文本进行建模,得到文档的主题分布。常用的模型参数估计方法有Gibbs Sampling和Variational Inference,网上有非常多关于LDA的介绍,最为经典的例如Rickjin的《LDA数学八卦》。本文旨在推导变分EM的全部过程。
转载请注明出处:http://blog.csdn.net/u0114...
分类:
其他好文 时间:
2016-04-16 19:06:58
阅读次数:
332
LSA latent semantic analysis 映射词-文档到一个低维隐语义空间 比较词和文档在低纬空间的相似性 topic 是 Vocab 上的概率分布(符合多项式分布) 文档到主题的一个分布,主题到词库的分布,通过训练得到这两个分布模型 plsa 模型 LDA模型 大规模LDA系统 s
分类:
其他好文 时间:
2016-02-29 18:07:56
阅读次数:
233
http://www.52nlp.cn/lda-math-lda-%E6%96%87%E6%9C%AC%E5%BB%BA%E6%A8%A1LDA主题模型评估方法--Perplexityhttp://www.52nlp.cn/lda-math-lda-%E6%96%87%E6%9C%AC%E5%BB%...
分类:
其他好文 时间:
2016-01-22 21:38:15
阅读次数:
1776
0 前言 看完前面几篇简单的文章后,思路还是不清晰了,但是稍微理解了LDA,下面@Hcy开始详细进入boss篇。其中文章可以分为下述5个步骤:一个函数:gamma函数四个分布:二项分布、多项分布、beta分布、Dirichlet分布一个概念和一个理念:共轭先验和贝叶斯框架两个模型:pLSA、LDA(...
分类:
其他好文 时间:
2016-01-06 17:54:25
阅读次数:
308