决策树和随机森林

时间：2020-04-28 15:31:47 阅读：86 评论：0 收藏：0 [点我收藏+]

一棵决策树包含一个根结点、若干内部结点和若干个叶节点；叶结点对应决策结果，其他每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集。从根结点到每个叶结点的路径对应一个判定测试序列。决策树学习的目的是为了产生一棵泛化能力强，即处理未见示例能力强的决策树，其基本流程遵循简单且直观的分而治之的策略。

信息增益

一般而言，信息增益越大，意味着用属性来进行划分所获得的纯度提升越大。因此可以用信息增益来进行决策树的划分属性选择。

有ID3、C4.5、CART等算法。

先算出总的信息熵
再分别计算每个属性的信息增益
取信息增益最大的作为划分属性
然后对每个分支结点再进一步划分

剪枝处理

剪枝是决策树学习算法过拟合的一个解决手段。决策树很容易过拟合。

剪枝有预剪枝和后剪枝。预剪枝是指再决策树生成过程中，对每个结点再划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分，并将当前结点标记为叶结点。后剪枝是从训练集生成一颗完整的决策树，然后自底向上对非叶节点进行考察。

随机森林

以决策树为基学习器构建Bagging集成。

随机森林简单、容易实现、计算开销小，具有强大的性能。

决策树和随机森林

标签：cart 包含目的分支 art 泛化性能提升测试的标记

原文地址：https://www.cnblogs.com/chenshaowei/p/12793991.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行