标签:商业 接下来 参考 img pytho 效果 auto 测试的 upload
标签: 半监督学习,文本分类
作者:炼己者
---
本博客所有内容以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢!
如果大家觉得格式看着不舒服,也欢迎大家去看我的简书
用半监督算法做文本分类(sklearn)
sklearn半监督学习(sklearn)
基于自训练的半监督文本分类算法
本文主要讲述基于协同训练的半监督算法做文本分类,用三个差异性比较大的分类器对未标注数据进行标注,它们可以进行交叉验证,大大提升了对未标注数据标记的置信度(简单理解就是三个分类器同时对一个未标注数据标记一样的标签,那么这个标签就可信了),从而提高分类器标注的准确率
这里就不再赘述,参考这篇文章:中文文本预处理流程
这上面的流程很完整,而且有代码,你只需要按着那个操作来即可
接下来就是对剩下的所有未标注数据进行操作了,未标注数据一条一条过
操作思路:假设有10条未标注数据,第一条取出来了,三个分类器对它进行预测。有以下三种可能:
- 如果大家预测的都一样,那就把它连同预测的标签加入到总的训练集data里。
- 如果有两个预测的一样,另外一个分类器预测的不一样,比如SVM和贝叶斯预测的一样,xgboost的不一样,就把它们俩的标注结果放到data3里,然后再让xgboost对更新的data3进行训练。
- 如果大家都预测的不一样,就把它放回未标注数据中
这样操作的目的就是为了不断地训练三个分类器,让它们最终对未标注数据预测的结果一样。这样一条一条未标注数据地过,直到未标注数据为空,最终过完。
我选了5000条数据进行预测。
SVM:0.62
bayes:0.67
xgboost:0.75
从图中观察,我们发现:svm先升后降,bayes先升后稳定,而xgboost很鬼畜。但是效果xgboost是最强的。这里面的原因我知识有限,暂时无法解释,大伙要是有什么想法可以在底下评论,我们可以交流交流
标签:商业 接下来 参考 img pytho 效果 auto 测试的 upload
原文地址:https://www.cnblogs.com/lookfor404/p/9821256.html