最近学习主题模型pLSA、LDA,就想拿来试试中文。首先就是找文本进行切词、去停用词等预处理,这里我找了开源工具IKAnalyzer2012,下载地址:https://code.google.com/p/ik-analyzer/由于太多,而且名称我也搞不清楚,不知道下载哪个。后来我下载了可是本文Ja...
分类:
其他好文 时间:
2015-01-14 00:40:27
阅读次数:
3869
了解LDA需要明白如下数学原理:
一个函数:gamma函数
四个分布:二项分布、多项分布、beta分布、Dirichlet分布
一个概念和一个理念:共轭先验和贝叶斯框架
两个模型:pLSA、LDA(文档-主题,主题-词语)
一个采样:Gibbs采样...
分类:
其他好文 时间:
2015-01-13 10:32:11
阅读次数:
185
在R语言中,线性判别分析(Liner Discriminant Analysis,简称LDA),依靠软件包MASS中有线性判别函数lqa()来实现。该函数有三种调用格式:
1)当对象为数据框data.frame时
lda(x,grouping,prior = propotions,tol = 1.0e-4,method,CV = FALSE,nu,...)
2) 当对象为公式Formula时
lda(formula,data,...,subnet,na.action)
3) 当对象为矩阵Matr...
分类:
编程语言 时间:
2015-01-11 14:53:23
阅读次数:
945
1、TopicModel - LSA(隐性语义分析)的早期方法SVD
from:
ref:...
分类:
编程语言 时间:
2015-01-09 20:57:19
阅读次数:
1745
1.LDA主题模型 给定先验概率参数αβ,主题混合参数θ,集合主题z,集合词w的联合分布为 (1)2.variational inference1>variational distribution variational inference algorithm 介绍的variational 分...
分类:
其他好文 时间:
2015-01-08 22:37:44
阅读次数:
420
LDA算法(Latent Dirichlet allocation)是Blei,Andrew NG,Jordan等在2003年左右发表的算法,主要是以一系列单词为输入,以一系列Topic单词作为输出。该算法不考虑单词之间的顺序关系,衍生出了很多以LDA为基础的算法。对于小的单独的文本,可以使用在线工...
分类:
其他好文 时间:
2015-01-08 21:32:46
阅读次数:
297
LDA主题模型好坏的评估,判断改进的参数或者算法的建模能力。
Blei先生在论文《Latent Dirichlet Allocation》实验中用的是Perplexity值作为评判标准。
一、Perplexity定义
http://en.wikipedia.org/wiki/Perplexity
perplexity是一种信息理论的测量方法,b的perplexity值定义为基于b的...
分类:
其他好文 时间:
2015-01-06 17:58:56
阅读次数:
232
转载自wentingtu基于LDA的Topic Model变形最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人。我主要关注了下面这位大牛和他的学生:David M. BleiLDA的创始者,04年博士毕业。一篇关于Topic Model的博士论文充分体现其精深的数学概率...
分类:
其他好文 时间:
2015-01-04 13:26:29
阅读次数:
532
step1 : install gensim
step 2 :将用字符串表示的文档转换为用id表示的文档向量:
documents = ["Shipment of gold damaged in a fire", "Delivery of silver arrived in a silver truck", "Shipment of gold arrived in a truck"]...
分类:
其他好文 时间:
2014-12-24 21:34:10
阅读次数:
246
关注点:(1)主题模型的应用(2)文献计量学的实际应用,预测方法Time gap analysis by the topic model-based temporal technique使用LDA模型来确定不同资源类型的时间窗划分方法。Classification of individual art...
分类:
其他好文 时间:
2014-12-23 12:06:04
阅读次数:
185