随机森林（Random Forest， RF）

时间：2019-09-01 15:06:41 阅读：112 评论：0 收藏：0 [点我收藏+]

秉承bagging；

构造多颗相互独立CART决策树，形成一个森林，共同决策输出；

两个随机：

1）输入数据随机：从全体数据中又放回的选取部分数据；

2）每颗决策树构建的特征是从全体特征中随机选取；（从M个特征中选m个，再从这m个选取最优特征作为节点）

优点：

1）不易过拟合，抗噪能力强；

2）高度并行，运算快；

3）无偏估计；

4）对部分特征缺失不敏感；

随机森林调参

1、算法类型：ID3，C4.5，CART

2、树的数目(n_estimator)

　　（0,100]

　　较多的子树，提高模型的性能，降低速度；

3、随机属性个数（max_features）

　　logN、N/3、sqrt(N)、N

　　增加随机属性个数，提高模型性能，降低单个树的多样性，降低速度；

4、树的最大深度

　　$[1,\infty )$

　　-1表示树的完全生长；

5、叶子节点最少记录数（min_sample_leaf）：

　　叶节点数据的最小个数，最小为2，一般50左右

　　较小的叶子是模型更容易捕捉训练数据的噪声，训练数据效果更好，模型越复杂；

6、叶子节点最少记录百分比

　　叶节点数据个数占父节点的最小比例；

原文地址：https://www.cnblogs.com/danniX/p/10719752.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行