码迷,mamicode.com
首页 > 其他好文 > 详细

决策树理解

时间:2018-11-01 22:33:47      阅读:241      评论:0      收藏:0      [点我收藏+]

标签:一个   c4.5   form   个人   ini   art   统计   数据集   参考   

一.ID3

1.李航统计学习书上写:ID3相当于用极大似然法进行概率模型的选择。这句话邹博的回答是:从ID3的构建树过程而言,它可以看成使用贪心算法得到近似最优的一颗决策树,它无法保证是最优的。李航《统计学习方法》中这句话,应该是ID3提出时使用的理论依据,可以参考J.R. QUINLAN的" Induction of Decision Trees ",我简略看了下,我个人感觉,应该是他引用的更早的文献,使用最大似然估计方法推导得到了信息增益。 应该可以先这么理解。

2.ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。

3.ID3采用的信息增益度量存在一个缺点,它一般会优先选择有较多属性值的Feature,因为属性值多的Feature会有相对较大的信息增益?(信息增益反映的给定一个条件以后不确定性减少的程度,必然是分得越细的数据集确定性更高,也就是条件熵越小,信息增益越大)

二。C4.5

C4.5中是用信息增益比率(gain ratio)来作为选择分支的准则。信息增益比率通过引入一个被称作分裂信息(Split information)的项来惩罚取值较多的Feature。除此之外,C4.5还弥补了ID3中不能处理特征属性值连续的问题。但是,对连续属性值需要扫描排序,会使C4.5性能下降

三。CART

1.相比ID3和C4.5,CART应用要多一些,既可以用于分类也可以用于回归

2.CART分类时,使用基尼指数(Gini)来选择最好的数据分割的特征,gini描述的是纯度,与信息熵的含义相似。CART中每一次迭代都会降低GINI系数

3.回归时使用均方差作为loss function

决策树理解

标签:一个   c4.5   form   个人   ini   art   统计   数据集   参考   

原文地址:https://www.cnblogs.com/kjkj/p/9892591.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!