标签:获得 产生 不容易 none strong 样本 引入 连续 过程
理论: 从样本集(N个数据点)选出n个样本(有放回)建立分类器
重复m次,获得m个分类器
过程:
1. 样本的随机:从N个数据点中随机选择n个样本
2. 属性的随机:从所有属性中随机选择k个属性
3. 重复m次,,建立m颗决策树
4. m棵决策树形成随机森林,投票决定结果
参数:
n_estimators=10, //棵树
max_depth=None, //最大深度
max_features =auto//最大属性 max_features=sqrt(n_features).
min_samples_leaf=1, //最少分裂样本数
优点:
随机性的引入,不容易过拟合
随机性的引入,有很好的的抗噪声能力
高维度的数据,不用做特征选择
处理离散型,连续性,不用做特征规范
缺点:
决策树个数很多时,时间和空间会很大
对于属性值很多的字段,会对模型产生很大的影响
标签:获得 产生 不容易 none strong 样本 引入 连续 过程
原文地址:https://www.cnblogs.com/hapyygril/p/9848784.html