随机森林_理论

时间：2018-10-25 12:04:15 阅读：237 评论：0 收藏：0 [点我收藏+]

理论：从样本集（N个数据点）选出n个样本（有放回）建立分类器

重复m次，获得m个分类器

过程：

1. 样本的随机：从N个数据点中随机选择n个样本

2. 属性的随机：从所有属性中随机选择k个属性

3. 重复m次，，建立m颗决策树

4. m棵决策树形成随机森林，投票决定结果

参数：

n_estimators=10, //棵树
max_depth=None, //最大深度

max_features =auto//最大属性 max_features=sqrt(n_features).

min_samples_leaf=1, //最少分裂样本数

优点：

随机性的引入，不容易过拟合

随机性的引入，有很好的的抗噪声能力

高维度的数据，不用做特征选择

处理离散型，连续性，不用做特征规范

缺点：

决策树个数很多时，时间和空间会很大

对于属性值很多的字段，会对模型产生很大的影响

原文地址：https://www.cnblogs.com/hapyygril/p/9848784.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行