标签:提示 关于 输出 boosting 树模型 并行化 训练 能力 做了
相信看了之前关于集成学习的介绍,大家对集成学习有了一定的了解。本文在给大家介绍下远近闻名的随机森林(RF)算法。
随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法,尤其是它可以很方便的并行训练,在如今大数据大样本的的时代很有诱惑力。
随机森林是Bagging算法的进化版,也就是说,它的基本思想仍然和Bagging,但是进行了独有的改进。
如果\(n_{sub}=n\),则此时RF的CART决策树和普通的CART决策树没有区别。\(n_{sub}\)越小,则模型约健壮,当然此时对于训练集的拟合程度会变差。也就是说\(n_{sub}\)越小,模型的方差会减小,但是偏倚会增大。在实际案例中,一般会通过交叉验证调参获取一个合适的\(n_{sub}\)的值。
输入:为样本集\(D={(x_1,y_1),(x_2,y_2),...(x_m,y_m)}\),弱分类器迭代次数\(T\)。
输出:为最终的强分类器\(f(x)\)
由于RF在实际应用中的良好特性,基于RF,有很多变种算法,应用也很广泛,不光可以用于分类回归,还可以用于特征转换,异常点检测等。下面对于这些RF家族的算法中有代表性的做一个总结。
Extra Trees是RF的一个变种, 原理几乎和RF一模一样,仅有区别有:
从第二点可以看出,由于随机选择了特征值的划分点位,而不是最优点位,这样会导致生成的决策树的规模一般会大于RF所生成的决策树。也就是说,模型的方差相对于RF进一步减少,但是偏倚相对于RF进一步增大。在某些时候,Extra Trees的泛化能力比RF更好。
Totally Random Trees Embedding(以下简称 TRTE)是一种非监督学习的数据转化方法。它将低维的数据集映射到高维,从而让映射到高维的数据更好的运用于分类回归模型。我们知道,在支持向量机中运用了核方法来将低维的数据集映射到高维,此处TRTE提供了另外一种方法。
TRTE在数据转化的过程也使用了类似于RF的方法,建立\(T\)个决策树来拟合数据。当决策树建立完毕以后,数据集里的每个数据在\(T\)个决策树中叶子节点的位置也定下来了。比如我们有3颗决策树,每个决策树有5个叶子节点,某个数据特征x划分到第一个决策树的第2个叶子节点,第二个决策树的第3个叶子节点,第三个决策树的第5个叶子节点。则x映射后的特征编码为(0,1,0,0,0, 0,0,1,0,0, 0,0,0,0,1), 有15维的高维特征。这里特征维度之间加上空格是为了强调三颗决策树各自的子编码。
映射到高维特征后,可以继续使用监督学习的各种分类回归算法了。
RF的算法原理也终于讲完了,作为一个可以高度并行化的算法,RF在大数据时候大有可为。 这里也对常规的随机森林算法的优缺点做一个总结。
RF的主要优点有:
RF的主要缺点有:
(欢迎转载,转载请注明出处。欢迎沟通交流: 339408769@qq.com)
3. 集成学习(Ensemble Learning)随机森林(Random Forest)
标签:提示 关于 输出 boosting 树模型 并行化 训练 能力 做了
原文地址:https://www.cnblogs.com/huangyc/p/9960820.html