本文利用gensim进行LDA主题模型实验,第一部分是基于前文的wiki语料,第二部分是基于Sogou新闻语料。 1. 基于wiki语料的LDA实验 上一文得到了wiki纯文本已分词语料 wiki.zh.seg.utf.txt,去停止词后可进行LDA实验。 同时gensim也提供了对wiki压缩包直 ...
分类:
其他好文 时间:
2016-07-05 18:58:05
阅读次数:
4412
PCA 主成分分析方法,LDA 线性判别分析方法,可以认为是有监督的数据降维。下面的代码分别实现了两种降维方式: 结果如下 ...
分类:
其他好文 时间:
2016-06-25 14:57:36
阅读次数:
408
版权声明:
本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系
前言:
上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。特征值和奇异值在大部分人的印象中,...
分类:
其他好文 时间:
2016-06-24 16:04:13
阅读次数:
301
今天,也没出去,晚上宿舍没有人,自己思考了下人生,毕设还是大事,觉得现在有必要把LDA从前往后彻彻底底的读一遍了,因为现在的感觉就是什么都知道一点皮毛,但是理解的都不深,LDA好像(恩,相当不好)现在理解的不是很好,涉及的内容挺多,细分的话有: 1)参数估计 MLE MAP 2)Bayes Esti ...
分类:
其他好文 时间:
2016-06-05 23:00:41
阅读次数:
293
http://blog.csdn.net/pipisorry/article/details/51525308
吉布斯采样的实现问题
本文主要说明如何通过吉布斯采样进行文档分类(聚类),当然更复杂的实现可以看看吉布斯采样是如何采样LDA主题分布的[主题模型TopicModel:隐含狄利克雷分布LDA
]。
关于吉布斯采样的介绍文章都停止在吉布斯采样的详细描述上,如随机采样和随机...
分类:
其他好文 时间:
2016-05-30 14:50:50
阅读次数:
277
【背景】 在互联网大环境下,企业办公应用近两年呈现出蓬勃发展的态势,这些应用必须兼容企业已有的登录认证系统,LDAP(Lightweight Directory Access Protocol)做为标准的目录服务,广泛被企业使用。本文记录接入到LDAP服务所遇到的问题以及解决办法,希望对刚接触LDA ...
分类:
其他好文 时间:
2016-05-29 06:21:45
阅读次数:
190
Dirichlet Process标签(空格分隔): LDA DMM DP Dirichlet Dirichlet-Process作者: 王琳(大连理工大学信息检索研究室)写在前头
对于非参数化的机器学习模型,我之前研究的并不多。通过这几天的学习,简单总结一下我所了解到的非参数化的模型。
鉴于非参数化的学习模型涉及大量的概率计算,晦涩难懂,然而在这篇总结材料中,我并不细推每个公式,而是...
分类:
其他好文 时间:
2016-05-18 19:20:29
阅读次数:
469
之前几篇文章讲到了文档主题模型,但是毕竟我的首要任务还是做分类任务,而涉及主题模型的原因主要是用于text representation,因为考虑到Topic Model能够明显将文档向量降低维度,当然TopicModel可以做比这更多的事情,但是对于分类任务,我觉得这一点就差不多了。
LDA之前已经说到过,是一个比较完善的文档主题模型,这次试用的是JGibbsLDA开源的LDA代...
分类:
其他好文 时间:
2016-05-07 10:16:11
阅读次数:
463
俗话说“庙小妖风大,水浅王八多”,作为一名自然语言处理的水货研究生,通常只是对论文有着一知半解的了解,然而因为毕竟人老了年纪大容易忘事,有时候还是想把这一知半解的想法用文字写出来,以便之后回顾,看官勿喷,水货要开始动笔了。
文本建模是自然语言处理领域中很基础的内容,而且也已经被研究了千万遍,这个系列我主要的思路是从LSA->pLSA->unigram model ->LDA,其中p...
分类:
其他好文 时间:
2016-05-07 10:12:49
阅读次数:
206
LDA:Latent Dirichlet Allocation 是一个很著名的文本模型,最初是在2003年被一群大牛提出的,包括David M.Blei 、Andrew Y.Ng等。和之前的pLSA文本模型相比,LDA算是贝叶斯观点的pLSA,所谓贝叶斯观点,就是什么都是不确定的,不像pLSA中的p(z|d),虽然是个隐变量,但是还是确定的值,然而对于贝叶斯学派观点,其概率是不确定的,该概率符合某...
分类:
其他好文 时间:
2016-05-07 10:12:14
阅读次数:
190