了解LDA需要明白如下数学原理:
一个函数:gamma函数
四个分布:二项分布、多项分布、beta分布、Dirichlet分布
一个概念和一个理念:共轭先验和贝叶斯框架
两个模型:pLSA、LDA(文档-主题,主题-词语)
一个采样:Gibbs采样...
分类:
其他好文 时间:
2015-01-13 10:32:11
阅读次数:
185
基于概率统计的PLSA模型,并且用EM算法学习模型参数。PLSA的概率图模型如下
其中D代表文档,Z代表隐含类别或者主题,W为观察到的单词,表示单词出现在文档的概率,表示文档中出现主题下的单词的概率,给定主题出现单词的概率。并且每个主题在所有词项上服从Multinomial
分布,每个文档在所有主题上服从Multinomial 分布。整个文档的生成过程是这样的:
(1) 以的概率选中文...
分类:
其他好文 时间:
2015-01-09 22:26:13
阅读次数:
347
LSA and SVD
LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”或者“Concept”。我们知道,在文档的空间向量模型(VSM)中,文档被表示成由特征词出现概率组成的多维向量,这种方法的好处是可以将query和文档转化成同一空间下的向量计算相似度,可以对不同词项赋予不同的权重,在文本检索、分类、聚类问题中都得到了广泛应用,在基于贝叶斯算法及KNN算法的ne...
分类:
其他好文 时间:
2015-01-09 20:59:37
阅读次数:
265
1、TopicModel - LSA(隐性语义分析)的早期方法SVD
from:
ref:...
分类:
编程语言 时间:
2015-01-09 20:57:19
阅读次数:
1745