决策树构建

时间：2018-02-06 20:30:54 阅读：136 评论：0 收藏：0 [点我收藏+]

标签：inf bsp 结果数据集 href 重要随机相同通过

信息熵：

生活中的所见所闻，都接触到许许多多的信息，有的信息对我们有用，有的无用。如 “地球是自转的”，这条信息对我们没什么用，因为我们都知道，而且是确确实实是这样的。香农用信息熵的概念来描述信源的不确定度，变量的不确定性越大，熵也就越大。

在某个事件中，如果不发生的概率为0，那么可以确定信息熵为0，当发生的概率为1时，属于确定性事件，同样信息熵为0。只有当发生的概率为0.5 时，不确定程度则越大，熵也就越大。（如下图，x轴为发生的概率，y轴为熵）

技术分享图片

计算信息熵公式：(通常以2为对数底数)

技术分享图片

其中 p(x_i) 代表随机事件X为 x_i的概率。

条件熵：在满足某个条件下，随机变量的不确定性。

技术分享图片

信息增益：信息增益是特征选择的一个重要指标，表示在某个条件下，信息不确定性的减少程度。

简单来说：信息增益 = 信息熵 - 条件熵

信息增益率：信息增益率为信息增益与该特征的信息熵之比

决策树的构建，是基于 ID3算法或 C4.5算法。

ID3算法：

分类预测算法，算法的核心是“信息熵”。ID3算法使用信息增益（Info-Gain），期望信息越小，信息增益越大，从而纯度越高，划分越好。ID3算法通过计算每个属性的信息增益，认为信息增益高的是好属性，每次划分选取信息增益最高的属性为划分标准，重复这个过程，直至生成一个能完美分类训练样例的决策树。

1. 所有属性必须为离散量；

2. 所有的训练的所有属性必须有一个明确的值；

3. 相同的因素必须得到结论且训练例唯一；

C4.5算法：

C4.5是ID3的一个改进算法。

使用信息增益率（Gain-ratio）选择属性；

1. 在树构造过程中进行剪枝；

2. 对连续属性离散化处理；

3. 对不完整数据进行处理；

优点：易于理解，准确率高；

缺点：构造过程中对数据集独处顺序扫描排序，至算法效率低。内存足够容纳数据。

示例：通过信息增益构建分类决策树