文档主题生成模型（LDA）

时间：2017-06-03 11:16:43 阅读：362 评论：0 收藏：0 [点我收藏+]

主题模型（topic modeling）是一种常见的机器学习应用，主要用于对文本进行分类。传统的文本分类器，例如贝叶斯、KNN和SVM分类器，只能将测试对象分到某一个类别中，假设我给出三个分类：“算法”、“网络”和“编译”让其判断，这些分类器往往将对象归到某一类中。

但是如果一个外行完全给不出备选类别，有没有分类器能够自动给出类别判断呢？

有，这样的分类器就是主题模型。

潜在狄立克雷分配（Latent Dirichlet Allocation，LDA）主题模型是最简单的主题模型，它描述的是一篇文章是如何产生的。其原理如下图所示：

技术分享

从左往右看，一个主题是由一些词语的分布定义的，比如蓝色主题是由2%几率的data，2%的number……构成的。一篇文章则是由一些主题构成的，比如右边的直方图。具体产生过程是，从主题集合中按概率分布选取一些主题，从该主题中按概率分布选取一些词语，这些词语构成了最终的文档（LDA模型中，词语的无序集合构成文档，也就是说词语的顺序没有关系）。

如果我们能将上述两个概率分布计算清楚，那么我们就得到了一个模型，该模型可以根据某篇文档推断出它的主题分布，即分类。由文档推断主题是文档生成过程的逆过程。

在《LDA数学八卦》一文中，对文档的生成过程有个很形象的描述：

技术分享

LDA是一种使用联合分布来计算在给定观测变量下隐藏变量的条件分布（后验分布）的概率模型，观测变量为词的集合，隐藏变量为主题。

LDA的生成过程对应的观测变量和隐藏变量的联合分布如下：

技术分享

式子的基本符号约定——β表示主题，θ表示主题的概率，z表示特定文档或词语的主题，w为词语。

β_1:K为全体主题集合，其中β_k是第k个主题的词的分布（如图1左部所示）。第d个文档中该主题所占的比例为θ_d，其中θ_d,k表示第k个主题在第d个文档中的比例（图1右部的直方图）。第d个文档的主题全体为z_d，其中z_d,n是第d个文档中第n个词的主题（如图1中有颜色的圆圈）。第d个文档中所有词记为w_d，其中w_d,n是第d个文档中第n个词，每个词都是固定的词汇表中的元素。

p(β）表示从主题集合中选取了一个特定主题，p(θ_d)表示该主题在特定文档中的概率，大括号的前半部分是该主题确定时该文档第n个词的主题，后半部分是该文档第n个词的主题与该词的联合分布。连乘符号描述了随机变量的依赖性，用概率图模型表述如下：

技术分享