码迷,mamicode.com
首页 > 其他好文 > 详细

分类回归树

时间:2018-09-26 13:05:06      阅读:312      评论:0      收藏:0      [点我收藏+]

标签:bsp   ati   lsh   表达式   cti   好的   回归   迭代   表达   

  CART(Classification and Regression tree)分类回归树由L.Breiman,J.Friedman,R.Olshen和C.Stone于1984年提出。CART是一棵二叉树,采用二元切分法,每次把数据切成两份,分别进入左子树、右子树。而且每个非叶子节点都有两个孩子,所以CART的叶子节点比非叶子多。相比ID3和C4.5,CART应用要多一些,既可以用于分类也可以用于回归。

一 特征选择

  CART分类时,使用基尼指数(Gini)来选择最好的数据分割的特征,gini描述的是纯度,与信息熵的含义相似。CART中每一次迭代都会降低GINI系数。下图显示信息熵增益的一半,Gini指数,分类误差率三种评价指标非常接近。回归时使用均方差作为loss function。基尼系数的计算与信息熵增益的方式非常类似,具体的,在分类问题中,假设有K个类别,第k个类别的概率为$p_k$, 则基尼系数的表达式为:

 如果是二类分类问题,计算就更加简单了,如果属于第一个样本输出的概率是$p$,则基尼系数的表达式为:

$$Gini(p) = \sum\limits_{k=1}^{K}p_k(1-p_k) = 1- \sum\limits_{k=1}^{K}p_k^2$$

 

 

分类回归树

标签:bsp   ati   lsh   表达式   cti   好的   回归   迭代   表达   

原文地址:https://www.cnblogs.com/jin-liang/p/9706117.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!