随机森林（RandomForest）和极限森林（ExtraForest）的理解

时间：2020-05-05 20:23:35 阅读：489 评论：0 收藏：0 [点我收藏+]

随机森林（RandomForest）

简介：

　　在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而 “Random Forests” 是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林（random decision forests）而来的。这个方法则是结合 Breimans 的 “Bootstrap aggregating” 想法和 Ho 的"random subspace method"以建造决策树的集合。

在Bagging方法中，b个学习器之间彼此是相互独立的，这样的特点使得Bagging方法更容易并行。

算法步骤：

根据下列算法而建造每棵树：

1.用N来表示训练用例（样本）的个数，M表示特征数目。

2.输入特征数目m，用于确定决策树上一个节点的决策结果；其中m应远小于M。

3.从N个训练用例（样本）中以有放回抽样的方式，取样N次，形成一个训练集（即bootstrap取样），并用未抽到的用例（样本）作预测，评估其误差。

4.对于每一个节点，随机选择m个特征，决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征，计算其最佳的分裂方式。

5.每棵树都会完整成长而不会剪枝，这有可能在建完一棵正常树状分类器后会被采用。

优点：

1. 可以用来解决分类和回归问题：随机森林可以同时处理分类和数值特征。

2. 抗过拟合能力：通过平均决策树，降低过拟合的风险性。

3. 只有在半数以上的基分类器出现差错时才会做出错误的预测：随机森林非常稳定，即使数据集中出现了一个新的数据点，整个算法也不会受到过多影响，它只会影响到一颗决策树，很难对所有决策树产生影响。

4. 能够处理很高维度（feature很多）的数据，并且不用做特征选择（特征列采样）

5. 对于不平衡的分类资料集来说，它可以平衡误差。

缺点：

1. 据观测，如果一些分类/回归问题的训练数据中存在噪音，随机森林中的数据集会出现过拟合的现象。

2. 比决策树算法更复杂，计算成本更高。

3. 由于其本身的复杂性，它们比其他类似的算法需要更多的时间来训练。

问：随机森林随机在哪里？

1.随机森林是一种组合方法，由许多的决策树组成，对于每一颗决策树，随机森林采用的是有放回的对N个样本分N次随机取出N个样本，即这些决策树的形成采用了随机的方法，因此也叫做随机决策树。随机森林中的树之间是没有关联的。当测试数据进入随机森林时，其实就是让每一颗决策树分别进行分类，最后取所有决策树中分类多的那类为最终的结果。

2.随机森林的另一个"随机"点是对于每一个决策树，节点是按照从样本所有属性中随机抽取一定数量的属性进行分裂的，并不是对所有属性进行考量，按照这种思路，其中不同的决策树就拥有了对样本中某些属性强有力判断的能力，相当于每一颗决策树就是一个精通某些特定领域的专家，所有这些专家组合起来形成“强分类器”对样本进行投票。

和极限森林（ExtraForest）

　　extra trees是RF的一个变种, 原理几乎和RF一模一样，仅有区别有：

对于每个决策树的训练集，RF采用的是随机采样bootstrap来选择采样集作为每个决策树的训练集，而extra trees一般不采用随机采样，即每个决策树采用原始训练集。
在选定了划分特征后，RF的决策树会基于基尼系数，均方差之类的原则，选择一个最优的特征值划分点，这和传统的决策树相同。但是extra trees比较的激进，他会随机的选择一个特征值来划分决策树。

　　从第二点可以看出，由于随机选择了特征值的划分点位，而不是最优点位，这样会导致生成的决策树的规模一般会大于RF所生成的决策树。也就是说，模型的方差相对于RF进一步减少，但是偏倚相对于RF进一步增大。在某些时候，extra trees的泛化能力比RF更好。

随机森林（RandomForest）和极限森林（ExtraForest）的理解

标签：span random 进一步关联 and 过拟合采样通过 nbsp

原文地址：https://www.cnblogs.com/wuzc/p/12832066.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

随机森林（RandomForest）和极限森林（ExtraForest）的理解

随机森林（RandomForest）

简介：

算法步骤：

优点：

缺点：

相关概念：

问：随机森林随机在哪里？

和极限森林（ExtraForest）