上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结: (一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这 ...
分类:
其他好文 时间:
2017-09-27 13:31:03
阅读次数:
158
Latent Dirichlet Allocation (LDA)是一个主题模型,可以对文本进行建模。得到文档的主题分布。经常使用的模型參数预计方法有Gibbs Sampling和Variational Inference,网上有许多关于LDA的介绍,最为经典的比如Rickjin的《LDA数学八卦》 ...
分类:
其他好文 时间:
2017-07-22 13:30:13
阅读次数:
182
1. LDA基础知识 LDA(Latent Dirichlet Allocation)是一种主题模型。LDA一个三层贝叶斯概率模型,包含词、主题和文档三层结构。 LDA是一个生成模型,可以用来生成一篇文档,生成时,首先根据一定的概率选择一个主题,然后在根据概率选择主题里面的一个单词,这样反复进行,就 ...
分类:
编程语言 时间:
2017-07-12 13:30:25
阅读次数:
147
http://blog.csdn.net/a_step_further/article/details/51176959 LDA是文本挖掘中常用的主题模型,用来从大量文档中提取出最能表达各个主题的一些关键词,具体算法原理可参阅KM上相关文章。笔者因业务需求,需对腾讯微博上若干账号的消息进行主题提取, ...
分类:
编程语言 时间:
2017-07-07 13:13:39
阅读次数:
642
主题模型(topic modeling)是一种常见的机器学习应用,主要用于对文本进行分类。传统的文本分类器,例如贝叶斯、KNN和SVM分类器,只能将测试对象分到某一个类别中,假设我给出三个分类:“算法”、“网络”和“编译”让其判断,这些分类器往往将对象归到某一类中。 但是如果一个外行完全给不出备选类 ...
分类:
其他好文 时间:
2017-06-03 11:16:43
阅读次数:
362
在LDA模型原理篇我们总结了LDA主题模型的原理,这里我们就从应用的角度来使用scikit-learn来学习LDA主题模型。除了scikit-learn, 还有spark MLlib和gensim库也有LDA主题模型的类库,使用的原理基本类似,本文关注于scikit-learn中LDA主题模型的使用 ...
分类:
其他好文 时间:
2017-05-26 15:55:42
阅读次数:
1445
文本主题模型之LDA(一) LDA基础 文本主题模型之LDA(二) LDA求解之Gibbs采样算法 文本主题模型之LDA(三) LDA求解之变分推断EM算法 本文是LDA主题模型的第三篇,读这一篇之前建议先读文本主题模型之LDA(一) LDA基础,同时由于使用了EM算法,如果你对EM算法不熟悉,建议 ...
分类:
编程语言 时间:
2017-05-22 13:40:11
阅读次数:
1493
摘要: 1.算法概述 2.算法推导 3.算法特性及优缺点 4.注意事项 5.实现和具体例子 6.适用场合 7.与NB,pLSA比较 ...
分类:
其他好文 时间:
2017-04-01 12:22:48
阅读次数:
322
摘要: 1.算法概述 2.算法推导 3.算法特性及优缺点 4.注意事项 5.实现和具体例子 6.适用场合 7.与NB,pLSA比较 ...
分类:
其他好文 时间:
2017-03-21 12:57:07
阅读次数:
547