主题模型之潜在语义分析（Latent Semantic Analysis）

时间：2015-09-17 09:57:44 阅读：462 评论：0 收藏：0 [点我收藏+]

标签：

主题模型（Topic Models）是一套试图在大量文档中发现潜在主题结构的机器学习模型，主题模型通过分析文本中的词来发现文档中的主题、主题之间的联系方式和主题的发展。通过主题模型可以使我们组织和总结无法人工标注的海量电子文档。较早的主题模型有混合语言模型（Mixture of Unigram），潜在语义索引（Lantent Semantic Index，LSI），概率潜在语义索引（Probabilistic Latent Semantic Indexing，PLSI）。
主题模型中文档是由主题组成的，而主题是词的一个概率分布。David Blei 于2002 年在PLSI 和LSI 模型的基础上提出了Latent Dirichlet Allocation（LDA）模型，LDA 引入了狄利克雷先验参数作为多项式分布的先验分布，从而简化了概率推导。也解决了PLSI 模型中的扩展问题。

潜在语义分析（Latent Semantic Analysis）

基于向量空间模型的方法无法处理一词多义或多词一义的问题，由于人类认知是根据语义而非单词，两篇文章中可能同时出现了单词“flash”，然而一篇是有关电脑技术中的“flash”软件的，另一篇是有关于闪电的研究。如果单从单词本身进行分析很有可能将两篇文章错误的归为一类。并且词的维度太大，如何找到一些关键词可以对一篇文章进行信息压缩也是一件很棘手的问题。特别在信息爆炸的今天。

潜在语义分析是一种自动索引和信息检索的方法，该方法通过无监督的方法将文档和词映射到浅在语义空间（Latent Semantic Space），这个空间被称为主题或语义维度。

隐性语义分析采用将文档或词矩阵进行奇异值分解（Singular Value Decomposition, SVD）的方法。一般而言，文档和文档或者文档和查询之间的相似性在简化的潜语义空间的表达更为可靠。由于奇异值分解的方法本身是对文档特征的排序，可以通过限制奇异值的个数对数据进行降噪和降维。该方法于1988 年由Dumais 等人提出，用于解决关键词检索中由于单词和人类认知含义的差别所引起的漏检索和误检索的问题。下图中便是Susan Dumais，o(^.^)o。

Susan Dumais

LSA 用向量空间模型将文档映射成矩阵，使用SVD 分解矩阵：

其中矩阵

由于矩阵

技术分享

举个例子，数据集中分别有关两个话题的9篇微博文档，话题A是关于话题陈奕迅演唱会的，话题B是关于话题谷歌眼睛问世的。经过分词后将可以得到每个词对应每篇微博文档出现频率的词频表。如下表所示。

话题A：陈奕迅演唱会
A1：陈奕迅的演唱会太好听了，大爱陈奕迅的《十年》
A2：最喜欢的Eason《十年》和《因为爱情》
A3：看陈奕迅的《十年》，现代科技真厉害，现场真棒
A4：北京演唱会，Eason 和王菲对唱《因为爱情》
A5：演唱会陈奕迅为了请到王菲唱《因为爱情》，特地不说话
话题B：谷歌眼镜问世
B1：谷歌眼镜即将上市，现在可以申请试用。
B2：科技新创意–Google Glass
B3：Glass 创意无限，各位Geek 可以想办法试用
B4：谷歌眼镜可以申请试用了，属于可穿戴式科技产品

技术分享

词频表可以看作是这9条微博的完全统计，通过词频计算表计算表中每篇文档中每个词的TF-IDF权值表，并用权值表进行奇异值分解。

设TF-IDF权值表为