标签:输出 投票 机器 load 泛化 效果 问题 学习 电影
我们之前介绍了很多的机器学习的算法,大家有没想过一个问题用所有的方法都试一遍,然后拿结果一起再来判断。其实这种思路在机器学习中完全是可以的,并且有了自己的一个阵营,就是集成学习。集成学习顾名思义是结合了好多的算法一起来进行预测。就像我们想看一部电影前,问问身边看过的几个朋友对这部电影的评价,然后作出一个综合的判断,要不要看这部电影。
我们之所以要把多个学习器组合在一起,是因为单个学习器往往可能效果不那么好,而多个学习器可以互相帮助,各取所长,就有可能一起决策,把一个学习任务完成得比较漂亮。单个学习器我们称为弱学习器,相对的集成学习则是强学习器。
根据个体学习器的种类的个数,我们可以分为两种集成学习。
同质个体学习器按照个体学习器之间是否存在依赖关系可以分为两类:
Bagging的个体弱学习器的训练集是通过随机采样得到的。通过\(T\)次的随机采样,我们就可以得到\(T\)个采样集,对于这\(T\)个采样集,我们可以分别独立的训练出\(T\)个弱学习器,再对这\(T\)个弱学习器通过集合策略来得到最终的强学习器。
下图是决策树的Bagging和KNN的Bagging决策边界:
Boosting的主要的过程如下图:
Boosting算法的工作机制:
Boosting系列算法里最著名算法主要有AdaBoost算法和提升树(GBDT)系列算法。
下图是AdaBoost不同弱学习器个数的决策边界:
当使用Stacking的结合策略时, 我们不是对弱学习器的结果做简单的逻辑处理,而是再加上一层学习器,也就是说,我们将训练集弱学习器的学习结果作为输入,将训练集的输出作为输出,重新训练一个学习器来得到最终结果。
(欢迎转载,转载请注明出处。欢迎沟通交流: 339408769@qq.com)
标签:输出 投票 机器 load 泛化 效果 问题 学习 电影
原文地址:https://www.cnblogs.com/huangyc/p/9949598.html