码迷,mamicode.com
首页 > 编程语言 > 详细

李航统计学习方法(第二版)(十):决策树CART算法

时间:2020-04-28 14:36:46      阅读:113      评论:0      收藏:0      [点我收藏+]

标签:介绍   第二版   nbsp   特征选择   统计学   数据   info   最小   组成   

1 简介

1.1 介绍

技术图片

 

 

 技术图片

1.2 生成步骤

CART树算法由以下两步组成:
(1)决策树生成:基于训练数据集生成决策树,生成的决策树要尽量大;
(2)决策树剪枝:用验证数据集对己生成的树进行剪枝并选择最优子树,这时用损失函数址小作为剪枝的标准。

2 算法

2.1 回归树

对回归树用平方误差最小化准则,生成二叉树。

2.1.1 回归树生成

技术图片

技术图片

 

 

 技术图片

 

 

 技术图片

 

 

 技术图片

 

 

 

 

2.2 分类树

对分类树用基尼指数(Gini imlex)最小化准则,进行特征选择,生成二叉树。

2.2.1 分类树生成

技术图片

 

 

 技术图片

 

技术图片

 

 

 技术图片

 

 

 

2.3 剪枝

CART剪枝算法由两步组成:

首先从生成算法产生的决策树技术图片底端开始不断剪枝,直到技术图片的根结点,形成一个子树序列技术图片

然后通过交叉验证法在独立的验证数据集上对子树序列进行测试,从中选择最优子树。
2.3.1 流程一 剪枝,形成一个子树序列

技术图片

 

 技术图片

 

 技术图片

 

 2.3.2 最优子树

技术图片

 

 2.3.3 剪枝最终算法

技术图片

 

技术图片

 

 

 

 

 

 

李航统计学习方法(第二版)(十):决策树CART算法

标签:介绍   第二版   nbsp   特征选择   统计学   数据   info   最小   组成   

原文地址:https://www.cnblogs.com/qiu-hua/p/12793299.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!