码迷,mamicode.com
首页 > 编程语言 > 详细

详解使用EM算法的半监督学习方法应用于朴素贝叶斯文本分类

时间:2018-02-07 14:55:24      阅读:251      评论:0      收藏:0      [点我收藏+]

标签:lan   世界   前言   and   blank   方法   cat   模型   情况下   

1.前言

  对大量需要分类的文本数据进行标记是一项繁琐、耗时的任务,而真实世界中,如互联网上存在大量的未标注的数据,获取这些是容易和廉价的。在下面的内容中,我们介绍使用半监督学习和EM算法,充分结合大量未标记的样本,以期获得文本分类更高的准确率。本文使用的是多项式朴素贝叶斯作为分类器,通过EM算法进行训练,使用有标记数据以及未标记的数据。研究了多类分类准确率与训练集中未标记数据的比例之间的关系。并探索方法来降低EM过程的计算代价来加速训练。结果显示,半监督EM-NB分类器可以在只给2%标记数据情况下达到大于50%的准确率,在给定33%标记数据情况下达到大于70%的准确率。本文来源于参考中的附录1,详细代码和介绍可以参见链接。

 

2.模型介绍

 

3.关键代码实现

 

X.参考

附录1:Text Classification Using EM and Semi-Supervised Learning

 

详解使用EM算法的半监督学习方法应用于朴素贝叶斯文本分类

标签:lan   世界   前言   and   blank   方法   cat   模型   情况下   

原文地址:https://www.cnblogs.com/yanmk/p/8425744.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!