标签:
if-then规则的集合,优点是模型具有可读性,分类速度快。
决策树常用的算法:ID3算法、C4.5算法、CART算法
1、熵(entropy,又称信息熵)
因此,熵只依赖于X的分布,与X的取值无关。
2、条件熵——表示在已知特征A的条件下,数据集D的不确定性
条件概率公式:
3、信息增益(偏向于选择取值较多的特征)
4、信息增益比
CART算法 Classification and regression tree,分类回归树
1、(最小二乘)回归树 —— 平方误差最小准则
步骤如下:
2、分类树 —— 基尼指数(Gini Index)最小准则
基尼指数(表示集合D的不确定性)
步骤如下:
1) 针对于数据集D的每一个特征,对其所有可能的取值a,计算在时的基尼指数
2) 选择基尼指数最小的特征及其对应的切分点,作为最优特征和最优切分点。
3) 将训练集依该特征及其切分点,分配到两个子结点中,对这两个子结点递归调用(1)(2),直至满足停止条件
4) 生成CART决策树
算法停止条件:
标签:
原文地址:http://www.cnblogs.com/sweetyu/p/5085242.html