002-决策树构造实例

时间：2018-09-28 16:39:13 阅读：223 评论：0 收藏：0 [点我收藏+]

标签：sunny span ima 相同分析 c4.5 衡量 font 问题

数据：14天打球情况

特征：4种环境变化，outlook观察，temperature温度，humidity湿度，windy刮风

目标：构造决策树

技术分享图片

根据四种特征决策play

划分方式：4种

问题：谁当根节点呢？

依据：信息增益

技术分享图片

在历史数据中（14天）有9天打球，5天不打球，所以此时的熵应为：

技术分享图片

关于log的底，选取什么都可以，但是要统一

4个特征逐一分析，先从outlook特征开始：

技术分享图片

Outlook = sunny时，熵值为0.971

$-\frac{2}{5}\times log_{2}\frac{2}{5}-\frac{3}{5}\times log_{2}\frac{3}{5}$

Outlook = overcast时，熵值为0

$-\frac{4}{4}\times log_{2}\frac{4}{4}-\frac{0}{4}\times log_{2}\frac{0}{4}$

Outlook = rainy时，熵值为0.971

$-\frac{3}{5}\times log_{2}\frac{3}{5}-\frac{2}{5}\times log_{2}\frac{2}{5}$

根据数据统计，outlook取值分别为sunny,overcast,rainy的概率分别为：5/14, 4/14, 5/14，sunny占14天中的5天，以此类推

熵值计算：5/14 * 0.971 + 4/14 * 0 + 5/14 * 0.971 = 0.693

信息增益：系统的熵值从原始的0.940下降到了0.693，增益为0.247

其他信息增益：

（gain(temperature)=0.029 gain(humidity)=0.152 gain(windy)=0.048）

同样的方式可以计算出其他特征的信息增益，那么我们选择最大的那个就可以啦，相当于是遍历了一遍特征，找出来了大当家，然后再其余的中继续通过信息增益找二当家！

ID3：信息增益（有什么问题呢？）每个ID之出现一次，所以算出来的信息增益会很大

C4.5：信息增益率（解决ID3问题，考虑自身熵）信息增益比上自身的熵值

CART：使用GINI系数来当做衡量标准

GINI系数：

技术分享图片

（和熵的衡量标准类似，计算方式不相同）

连续值怎么办？

技术分享图片

决策树剪枝策略

为什么要剪枝：决策树过拟合风险很大，理论上可以完全分得开数据（想象一下，如果树足够庞大，每个叶子节点不就一个数据了嘛）

剪枝策略：预剪枝，后剪枝

预剪枝：边建立决策树边进行剪枝的操作（更实用）

后剪枝：当建立完决策树后来进行剪枝操作

预剪枝：限制深度，叶子节点个数叶子节点样本数，信息增益量等

后剪枝：通过一定的衡量标准

技术分享图片

（叶子节点越多，损失越大）

C（T） = gini*samples，α = 系数，Tleaf = 叶子节点数

技术分享图片

002-决策树构造实例

标签：sunny span ima 相同分析 c4.5 衡量 font 问题

原文地址：https://www.cnblogs.com/Mjerry/p/9718940.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行