码迷,mamicode.com
首页 > 其他好文 > 详细

随机森林(Random Forest, RF)

时间:2019-09-01 15:06:41      阅读:112      评论:0      收藏:0      [点我收藏+]

标签:提高   点数据   完全   决策树   过拟合   节点数据   百分比   最优   and   

秉承bagging;

构造多颗相互独立CART决策树,形成一个森林,共同决策输出;

两个随机:

1)输入数据随机:从全体数据中又放回的选取部分数据;

2)每颗决策树构建的特征是从全体特征中随机选取;(从M个特征中选m个,再从这m个选取最优特征作为节点)

优点:

1)不易过拟合,抗噪能力强;

2)高度并行,运算快;

3)无偏估计;

4)对部分特征缺失不敏感;

随机森林调参

1、算法类型:ID3,C4.5,CART

2、树的数目(n_estimator)

  (0,100]

  较多的子树,提高模型的性能,降低速度;

3、随机属性个数(max_features)

  logN、N/3、sqrt(N)、N

  增加随机属性个数,提高模型性能,降低单个树的多样性,降低速度;

4、树的最大深度

  $[1,\infty )$

  -1表示树的完全生长;

5、叶子节点最少记录数(min_sample_leaf):

  叶节点数据的最小个数,最小为2,一般50左右

  较小的叶子是模型更容易捕捉训练数据的噪声,训练数据效果更好,模型越复杂;

6、叶子节点最少记录百分比

  叶节点数据个数占父节点的最小比例;

随机森林(Random Forest, RF)

标签:提高   点数据   完全   决策树   过拟合   节点数据   百分比   最优   and   

原文地址:https://www.cnblogs.com/danniX/p/10719752.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!