详解使用EM算法的半监督学习方法应用于朴素贝叶斯文本分类

时间：2018-02-07 14:55:24 阅读：251 评论：0 收藏：0 [点我收藏+]

1.前言

　　对大量需要分类的文本数据进行标记是一项繁琐、耗时的任务，而真实世界中，如互联网上存在大量的未标注的数据，获取这些是容易和廉价的。在下面的内容中，我们介绍使用半监督学习和EM算法，充分结合大量未标记的样本，以期获得文本分类更高的准确率。本文使用的是多项式朴素贝叶斯作为分类器，通过EM算法进行训练，使用有标记数据以及未标记的数据。研究了多类分类准确率与训练集中未标记数据的比例之间的关系。并探索方法来降低EM过程的计算代价来加速训练。结果显示，半监督EM-NB分类器可以在只给2%标记数据情况下达到大于50%的准确率，在给定33%标记数据情况下达到大于70%的准确率。本文来源于参考中的附录1，详细代码和介绍可以参见链接。

2.模型介绍

3.关键代码实现

X.参考

附录1：Text Classification Using EM and Semi-Supervised Learning

详解使用EM算法的半监督学习方法应用于朴素贝叶斯文本分类

标签：lan 世界前言 and blank 方法 cat 模型情况下

原文地址：https://www.cnblogs.com/yanmk/p/8425744.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行