随机森林
随机森林的“随机”体现在两个部分:
- 使用boostrap随机抽样(通俗点说就是有放回的随机抽样),假设原先数据集有N个样本,每次仍然抽出来N个样本,进行M次抽样,组成M个数据集(也就是抽M次,每次抽N个),每个单独的数据集都用来训练一颗单独的决策树T
- 选取特征进行分裂的时候,随机选取 k 个特征(k是一个小于所有特征总数 P 的值),进行分裂
选取k值的时候,发明随机森林的人推荐如下的取值:
- 回归: k = √p
- 分类: k = p/3
决策树
决策树停止分裂的常用条件:
1.树的深度到达指定最大值
2.损失函数已经到达指定的最小值
3.节点包含的样本数量已经到达指定的最小值
- 回归: 5个
- 分类: 1个