首页 > 编程语言 > 详细

基于协同训练的半监督文本分类算法

时间：2018-10-20 13:37:08 阅读：213 评论：0 收藏：0 [点我收藏+]

标签：商业接下来参考 img pytho 效果 auto 测试的 upload

标签：半监督学习，文本分类
作者：炼己者
---
本博客所有内容以学习、研究和分享为主，如需转载，请联系本人，标明作者和出处，并且是非商业用途，谢谢！
如果大家觉得格式看着不舒服，也欢迎大家去看我的简书

半监督学习文本分类系列

用半监督算法做文本分类(sklearn)
sklearn半监督学习(sklearn)
基于自训练的半监督文本分类算法

一. 摘要

本文主要讲述基于协同训练的半监督算法做文本分类，用三个差异性比较大的分类器对未标注数据进行标注，它们可以进行交叉验证，大大提升了对未标注数据标记的置信度(简单理解就是三个分类器同时对一个未标注数据标记一样的标签，那么这个标签就可信了)，从而提高分类器标注的准确率

二. 操作流程

1. 文本预处理

这里就不再赘述，参考这篇文章：中文文本预处理流程
这上面的流程很完整，而且有代码，你只需要按着那个操作来即可

2. 协同训练的操作方法

操作思路：

把数据data平均分成三份data1,data2,data3(也就是把上面操作之后得到的文本向量均分成三份)
写一个函数：包含三个分类算法。就是构建三个差异性较大的分类器，我采用的是SVM，贝叶斯，xgboost三种算法。
用data1训练SVM分类器，用data2训练贝叶斯分类器，用data3训练xgboost分类器。这样我们就得到了三个初步训练好的分类器。
接下来就是对剩下的所有未标注数据进行操作了，未标注数据一条一条过
操作思路：假设有10条未标注数据，第一条取出来了，三个分类器对它进行预测。有以下三种可能：
- 如果大家预测的都一样，那就把它连同预测的标签加入到总的训练集data里。
- 如果有两个预测的一样，另外一个分类器预测的不一样，比如SVM和贝叶斯预测的一样，xgboost的不一样，就把它们俩的标注结果放到data3里，然后再让xgboost对更新的data3进行训练。
- 如果大家都预测的不一样，就把它放回未标注数据中

这样操作的目的就是为了不断地训练三个分类器，让它们最终对未标注数据预测的结果一样。这样一条一条未标注数据地过，直到未标注数据为空，最终过完。

3. 测试结果

我选了5000条数据进行预测。

测试的操作流程

把测试数据用同样的方法转化成文本向量
上面训练过程中会保存模型，怎么操作可以看这篇文章：
如何保存sklearn训练好的算法模型
你把所有的模型都保存到一个目录下了，那么我们进行预测的时候怎么批量地读取这些模型呢？简单地说就是怎么把目录下所有的文件的文件名读取到一个列表上。看这里—— python如何获取目录下的所有文件名
读取模型，调用sklearn里的函数计算精度。因为保存的模型太多了，我是每种模型取100个左右，做测试，然后画折线图，看看精度的变化情况。

先放图，看结果

1）这是svm的结果，我们发现训练到后面，模型的效果在降低

技术分享图片

2）这是bayes的结果，一开始有点诡异，但后面趋于稳定

技术分享图片

3）这是xgboost的结果，很鬼畜，不知道为什么会如此波动

技术分享图片

从模型效果上来讲，我选出了每种模型效果最好的情况

SVM：0.62
bayes：0.67
xgboost：0.75

4.结论

从图中观察，我们发现：svm先升后降，bayes先升后稳定，而xgboost很鬼畜。但是效果xgboost是最强的。这里面的原因我知识有限，暂时无法解释，大伙要是有什么想法可以在底下评论，我们可以交流交流

基于协同训练的半监督文本分类算法

标签：商业接下来参考 img pytho 效果 auto 测试的 upload

原文地址：https://www.cnblogs.com/lookfor404/p/9821256.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！