码迷,mamicode.com
首页 > 其他好文 > 详细

CART

时间:2015-06-28 16:49:50      阅读:141      评论:0      收藏:0      [点我收藏+]

标签:

CART树的构建:
$function\ cart(D)$--$D$为数据
1.如果到了终止条件(如:所有x都相同,或所有y都相同,或到了指定深度),返回叶子节点
2.选择 分割方式,将数据分为左树$D_l$、右树$D_r$ 2部分
3.$cart(D_l),cart(D_r)$

分割方式(cart的分割方式不固定,此处采用decision stump):
选择所有decision stump中,综合不纯度最小的
技术分享
impurity(不纯度)衡量单个数据集
方式1:
将这个节点当作叶子节点,考虑此叶子节点上的错误
regression    -$impurity = \frac{1}{N}\sum_i (y_i-\overline{y})$
classification-$impurity = \frac{1}{N}\sum_i [y_i\neq y^*]$
Gini Index(考虑到了其他分类):
$impurity = 1-\frac{1}{K}\sum_k {(\frac{\sum_i [y_i=k]}{N})}^2$

pruning:
完全长成的树,$E_{in}=0$,容易overfit;考虑加入regulization,一个方法是限制叶子节点的数量
技术分享
要列出所有的树,是不可能的,考虑在以下树中做选择:
1.$G^0$为完全长成的树
2.$G^i$为在$G^{i-1}$的基础上,去掉一个叶子节点的树(在去掉一个节点的树中选取$E_{in}$最小)

missing data:
比如体重为空,选择用身高代替
CART中,每个分类节点都有一个候选分割列表(这些分割列表分割后和原分割相差很小)




CART

标签:

原文地址:http://www.cnblogs.com/porco/p/4605660.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!