随着Web2.0技术的出现和发展,互联网上(包括门户网站、电子商务网站、社交网站、音/视频分享网站、论坛、博客、微博等)产生了海量的、由用户发表的对于诸如人物、事件、产品等目标实体的评论信息。例如,下面这两个短文本评论:(1)“比较了多个智能手机后选择了8150,性价比还可以。另外,就是考虑到它是3...
分类:
其他好文 时间:
2015-11-25 08:43:16
阅读次数:
606
####需要先安装几个R包,如果有这些包,可省略安装包的步骤。#install.packages("Rwordseg")#install.packages("tm");#install.packages("wordcloud");#install.packages("topicmodels")例子中...
分类:
编程语言 时间:
2015-11-15 23:17:03
阅读次数:
686
主题模型(topic modeling)是一种常见的机器学习应用,主要用于对文本进行分类。传统的文本分类器,例如贝叶斯、KNN和SVM分类器,只能将测试对象分到某一个类别中,假设我给出三个分类:“算法”、“网络”和“编译”让其判断,这些分类器往往将对象归到某一类中。但是如果一个外行完全给不出备选类别...
分类:
其他好文 时间:
2015-10-28 20:51:38
阅读次数:
247
主题模型(Topic Models)是一套试图在大量文档中发现潜在主题结构的机器学习模型,主题模型通过分析文本中的词来发现文档中的主题、主题之间的联系方式和主题的发展。通过主题模型可以使我们组织和总结无法人工标注的海量电子文档。较早的主题模型有混合语言模型(Mixture of Unigram),潜...
分类:
其他好文 时间:
2015-09-17 09:57:44
阅读次数:
462
上一篇总结了潜在语义分析(Latent Semantic Analysis, LSA),LSA主要使用了线性代数中奇异值分解的方法,但是并没有严格的概率推导,由于文本文档的维度往往很高,如果在主题聚类中单纯的使用奇异值分解计算复杂度会很高,使用概率推导可以使用一些优化迭代算法来求解。Thomas H...
分类:
其他好文 时间:
2015-09-17 09:54:46
阅读次数:
300
1,说明
本文对LDA原始论文的作者所提供的C代码中LDA的主要逻辑部分做注释,代码可在这里下载:https://github.com/Blei-Lab/lda-c
这份代码实现论文《Latent Dirichlet Allocation》中介绍的LDA模型,用变分EM算法求解参数。
为了使代码在vs2013中运行做了一些微小改动,但不影响原代码的逻辑。
vs2013工程可在我的资源中...
分类:
其他好文 时间:
2015-07-02 15:49:14
阅读次数:
278
这一步,我们根据E-step得到的γ,phi\gamma,phi,最大化L(γ,?;α,β)L(\gamma,\phi;\alpha,\beta),得到α,β\alpha,\beta.1,拉格朗日乘数法求解β\beta 首先把L(γ,?;α,β)L(\gamma,\phi;\alpha,\beta)简化,只保留与β\beta有关的部分。因为β\beta是每一行存一个主题的词分布,所以每一行的...
分类:
其他好文 时间:
2015-07-02 12:08:22
阅读次数:
229
现在来推导一下得到变分参数更新式的过程,这一部分是在论文的附录中,为避免陷入过多细节而影响整体理解,可以在刚开始学习LDA的时候先不关注求解细节。首先要把L写成关于γ,?\gamma,\phi函数。根据之前我们对L的定义:L(γ,?;α,β)=Eq[logp(θ,z,w|α,β)]?Eq[logq(θ,z)]L(\gamma,\phi;\alpha,\beta)=E_q[logp(\theta,\m...
分类:
其他好文 时间:
2015-06-12 17:13:43
阅读次数:
125
(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: “乔布斯离我们而去了。” “苹果...
分类:
其他好文 时间:
2015-06-02 12:54:29
阅读次数:
143
概念主题模型(PTM, probabilitytopical model)在自然语言处理(NLP,natural language processing)中有着重要的应用。主要包括以下几个模型:LSA(latentsemantic
analysis)、 PLSA(probability latent semantic analysis)、LDA(latentdirichlet allocati...
分类:
其他好文 时间:
2015-05-23 14:16:13
阅读次数:
242