1. 回顾Boosting提升算法 AdaBoost是典型的Boosting算法,属于Boosting家族的一员。在说AdaBoost之前,先说说Boosting提升算法。Boosting算法是将“弱学习算法“提升为“强学习算法”的过程,主要思想是“三个臭皮匠顶个诸葛亮”。一般来说,找到弱学习算法要 ...
分类:
编程语言 时间:
2020-04-10 00:04:46
阅读次数:
216
0. 前言 sklearn提供了sklearn.ensemble库,其中包括随机森林模型(分类)。但之前使用这个模型的时候,要么使用默认参数,要么将调参的工作丢给调参算法(grid search等)。今天想来深究一下到底是如何选择参数,如何进行调参。 学会调参是进行集成学习工作的前提。参数可分为两种 ...
分类:
其他好文 时间:
2020-04-06 09:42:16
阅读次数:
91
随机森林与随机子空间 BaggingClassifier类也支持对特征采样,这种采样由两个超参数控制:max_features 与 bootstrap_features,他们的工作方式与max_samples 与 bootstrap一样,只是他们采样的是特征。这样,每个模型将会在一个随机的输入特征子 ...
分类:
其他好文 时间:
2020-03-20 22:01:46
阅读次数:
107
随机森林和adaboost都是集成学习比较经典的模型 随机森林和adaboost所使用的思想不同 随机森林运用bagging的思想,相当于并行,利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候决定测试样本的最终类别 adaboost运用boosting的思想,是一种迭代算法,针对同一 ...
分类:
其他好文 时间:
2020-03-15 20:30:34
阅读次数:
91
结合/融合/整合 (integration/ combination/ fusion)多个机器学习模型往往可以提高整体的预测能力。这是一种非常有效的提升手段,在多分类器系统(multi-classifier system)和集成学习(ensemble learning)中,融合都是最重要的一个步骤。 ...
分类:
其他好文 时间:
2020-03-15 13:39:22
阅读次数:
80
目录 简述集成学习 Boosting介绍 AdaBoost算法 GBDT算法 总结 一、简述集成学习 上一篇博文已经介绍了:集成算法是由多个弱学习器组成的算法,根据个体学习器的生成方式不同,集成算法分成两类: 个体学习器之间不存在强依赖关系,可以并行化生成每个个体学习器,这一类的代表是Bagging ...
分类:
其他好文 时间:
2020-02-24 00:10:39
阅读次数:
98
随机森林我们对使用决策树随机取样的集成学习有个形象的名字–随机森林。scikit-learn 中封装的随机森林,在决策树的节点划分上,在随机的特征子集上寻找最优划分特征。import numpy as npimport matplotlib.pyplot as pltfrom sklearn imp... ...
分类:
其他好文 时间:
2020-02-08 11:42:30
阅读次数:
117
投票法(voting)是集成学习里面针对分类问题的一种结合策略。基本思想是选择所有机器学习算法当中输出最多的那个类。 分类的机器学习算法输出有两种类型:一种是直接输出类标签,另外一种是输出类概率,使用前者进行投票叫做硬投票(Majority/Hard voting),使用后者进行分类叫做软投票(So ...
分类:
其他好文 时间:
2020-01-29 10:26:43
阅读次数:
232
集成学习 原理 集成学习是将许多个弱学习器通过策略组合到一起的算法,弱学习器可以是树或是神经网络或者是其他。目前集成学习的方法分为两大类:bagging方法和boosting方法。 bagging与随机森林 bagging方法是从原始数据集中进行多次随机采样,每次采样多个样本。记为T个采样集,每个采 ...
分类:
其他好文 时间:
2020-01-15 11:48:13
阅读次数:
76
XGboost算法 XGBoost是GBDT算法的一种改进,是一种常用的有监督集成学习算法;是一种伸缩性强、便捷的可并行构建模型的GradientBoosting算法。 原理是:在GBDT目标函数的基础上加入惩罚项,如下图绿框。通过限制树模型的叶子节点的个数和叶子节点的值来降低模型复杂度,从而防止过 ...
分类:
编程语言 时间:
2020-01-01 17:17:34
阅读次数:
105