n_topics = 10
lda = LatentDirichletAllocation(n_topics=n_topics, max_iter=50,
                                learning_method=‘online‘,
                                learning_offset=50.,
                                random_state=0)
lda.fit(tf)
print_top_words(lda, tf_feature_names, n_top_words)
pyLDAvis.sklearn.prepare(lda, tf, tf_vectorizer)

程序输出给我们10个主题下最重要的20个关键词。

Topic #0:
这个 就是 如果 可能 用户 一些 什么 很多 没有 这样 时候 但是 因为 不是 所以 不同 如何 使用 或者 非常
Topic #1:
中国 孩子 增长 市场 2016 学生 10 2015 城市 自己 人口 大众 关注 其中 教育 同比 没有 美国 投资 这个
Topic #2:
data 变量 距离 http 样本 com www 检验 方法 分布 计算 聚类 如下 分类 之间 两个 一种 差异 表示 序列
Topic #3:
电子 采集 应当 或者 案件 保护 规定 信用卡 收集 是否 提取 设备 法律 申请 法院 系统 记录 相关 要求 无法
Topic #4:
系统 检索 交通 平台 专利 智能 监控 采集 海量 管理 搜索 智慧 出行 视频 车辆 计算 实现 基于 数据库 存储
Topic #5:
可视化 使用 工具 数据库 存储 hadoop 处理 图表 数据仓库 支持 查询 开发 设计 sql 开源 用于 创建 用户 基于 软件
Topic #6:
学习 算法 模型 机器 深度 神经网络 方法 训练 特征 分类 网络 使用 基于 介绍 研究 预测 回归 函数 参数 图片
Topic #7:
企业 管理 服务 互联网 金融 客户 行业 平台 实现 建立 社会 政府 研究 资源 安全 时代 利用 传统 价值 医疗
Topic #8:
人工智能 领域 机器人 智能 公司 人类 机器 学习 未来 已经 研究 他们 识别 可能 计算机 目前 语音 工作 现在 能够
Topic #9:
用户 公司 企业 互联网 平台 中国 数据分析 行业 产业 产品 创新 项目 2016 服务 工作 科技 相关 业务 移动 市场
()

附带的是可视化的输出结果：

如果不能直接输出图形，还是按照前面的做法，执行：

data = pyLDAvis.sklearn.prepare(lda, tf, tf_vectorizer)
pyLDAvis.show(data)

你马上会发现当主题设定为10的时候，一些有趣的现象发生了——大部分的文章抱团出现在右上方，而2个小部落（8和10）似乎离群索居。我们查看一下这里的8号主题，看看它的关键词构成。

通过高频关键词的描述，我们可以猜测到这一主题主要探讨的是政策和法律法规问题，难怪它和那些技术、算法与应用的主题显得如此格格不入。

说明

前文帮助你一步步利用LDA做了主题抽取。成就感爆棚吧？然而这里有两点小问题值得说明。

首先，信息检索的业内专家一看到刚才的关键词列表，就会哈哈大笑——太粗糙了吧！居然没有做中文停用词(stop words)去除！没错，为了演示的流畅，我们这里忽略了许多细节。很多内容使用的是预置默认参数，而且完全忽略了中文停用词设置环节，因此“这个”、“如果”、“可能”、“就是”这样的停用词才会大摇大摆地出现在结果中。不过没有关系，完成比完美重要得多。知道了问题所在，后面改进起来很容易。有机会我会写文章介绍如何加入中文停用词的去除环节。

另外，不论是5个还是10个主题，可能都不是最优的数量选择。你可以根据程序反馈的结果不断尝试。实际上，可以调节的参数远不止这一个。如果你想把全部参数都搞懂，可以继续阅读下面的“原理”部分，按图索骥寻找相关的说明和指引。

原理

前文我们没有介绍原理，而是把LDA当成了一个黑箱。不是我不想介绍原理，而是过于复杂。

只给你展示其中的一个公式，你就能管窥其复杂程度了。

透露给你一个秘密：在计算机科学和数据科学的学术讲座中，讲者在介绍到LDA时，都往往会把原理这部分直接跳过去。

好在你不需要把原理完全搞清楚，再去用LDA抽取主题。

这就像是学开车，你只要懂得如何加速、刹车、换挡、打方向，就能让车在路上行驶了。即便你通过所有考试并取得了驾驶证，你真的了解发动机或电机（如果你开的是纯电车）的构造和工作原理吗？

但是如果你就是希望了解LDA的原理，那么我给你推荐2个学起来不那么痛苦的资源吧。

首先是教程幻灯。slideshare是个寻找教程的好去处。这份教程浏览量超过20000，内容深入浅出，讲得非常清晰。

但如果你跟我一样，是个视觉学习者的话，我更推荐你看这段 Youtube视频。

讲者是Christine Doig，来自Continuum Analytics。咱们一直用的Python套装Anaconda就是该公司的产品。

Christine使用的LDA原理解释模型，不是这个LDA经典论文中的模型图（大部分人觉得这张图不易懂）：

她深入阅读了各种文献后，总结了自己的模型图出来：

用这个模型来解释LDA，你会立即有豁然开朗的感觉。

祝探索旅程愉快！

讨论

除了本文提到的LDA算法，你还知道哪几种用于主题抽取的机器学习算法？你觉得主题建模(topic model)在信息检索等领域还有哪些可以应用的场景？欢迎留言分享给大家，我们一起交流讨论。

喜欢请点赞。还可以微信关注和置顶我的公众号“玉树芝兰”(nkwangshuyi)。

如果你对数据科学感兴趣，不妨阅读我的系列教程索引贴《如何高效入门数据科学？》，里面还有更多的有趣问题及解法。

如何用Python从海量文本抽取主题？

淹没

主题

准备

代码

说明

原理

讨论