决策树算法

时间：2015-12-29 12:41:50 阅读：184 评论：0 收藏：0 [点我收藏+]

标签：

if-then规则的集合，优点是模型具有可读性，分类速度快。

技术分享

决策树常用的算法：ID3算法、C4.5算法、CART算法

技术分享

1、熵（entropy，又称信息熵）

技术分享

因此，熵只依赖于X的分布，与X的取值无关。

2、条件熵——表示在已知特征A的条件下，数据集D的不确定性

技术分享

条件概率公式：

3、信息增益（偏向于选择取值较多的特征）

技术分享

4、信息增益比

技术分享

CART算法　　Classification and regression tree，分类回归树

1、（最小二乘）回归树 —— 平方误差最小准则

步骤如下：

技术分享

2、分类树 —— 基尼指数(Gini Index)最小准则

基尼指数（表示集合D的不确定性）

技术分享

步骤如下：

1) 针对于数据集D的每一个特征，对其所有可能的取值a，计算在时的基尼指数

2) 选择基尼指数最小的特征及其对应的切分点，作为最优特征和最优切分点。

3) 将训练集依该特征及其切分点，分配到两个子结点中，对这两个子结点递归调用（1）（2），直至满足停止条件

4) 生成CART决策树

算法停止条件：

标签：

原文地址：http://www.cnblogs.com/sweetyu/p/5085242.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行