LDA整体流程先定义一些字母的含义:文档集合D,topic集合TD中每个文档d看作一个单词序列,wi表示第i个单词,设d有n个单词。(LDA里面称之为word
bag,实际上每个单词的出现位置对LDA算法无影响)D中涉及的所有不同单词组成一个大集合VOCABULARY(简称VOC)LDA以文档集合D...
分类:
其他好文 时间:
2014-05-23 03:28:59
阅读次数:
562
主要内容: 1、文本表示与特征提取; 2、隐语义分析LSA和Latent Dirichlet
Allocation(LDA) 3、检索模型:Boolean模型、向量模型、概率模型 1、文本表示与特征提取 文本中抽取出的特征词进行量化来表示文本信息;
利用分词工具:极易中文分词:je-analysis...
分类:
其他好文 时间:
2014-05-21 18:03:26
阅读次数:
486
以下内容主要基于《Latent Dirichlet
Allocation》,JMLR-2003一文,另加入了一些自己的理解,刚开始了解,有不对的还请各位指正。LDA-Latent Dirichlet
AllocationJMLR-2003摘要:本文讨论的LDA是对于离散数据集,如文本集,的一种生成式...
分类:
其他好文 时间:
2014-05-08 13:28:29
阅读次数:
909
1. What is the LDA?LDA(latent dilichlet allocation)
is a method to assign the topic (distribution) of a given document. However,
note that this model ...
分类:
其他好文 时间:
2014-05-08 13:16:49
阅读次数:
289