码迷,mamicode.com
首页 > 编程语言 > 详细

决策树算法

时间:2015-12-29 12:41:50      阅读:184      评论:0      收藏:0      [点我收藏+]

标签:

if-then规则的集合,优点是模型具有可读性分类速度快

 技术分享

技术分享

决策树常用的算法:ID3算法、C4.5算法、CART算法

技术分享

1、熵(entropy称信息熵) 

 技术分享

 因此,熵只依赖于X的分布,与X的取值无关。

  • 熵越大,随机变量X的不确定性就越大。
  • 如果有0概率,令。单位为比特(bit)或纳特(Nat)

2、条件熵——表示在已知特征A的条件下,数据集D的不确定性

技术分享

 

 

 

 

  

     条件概率公式: 技术分享

3、信息增益(偏向于选择取值较多的特征)

技术分享

4、信息增益比 

 技术分享

CART算法  Classification and regression tree,分类回归树

 1、(最小二乘)回归树 —— 平方误差最小准则  技术分享

  步骤如下:

       技术分享

 2、分类树 —— 基尼指数(Gini Index)最小准则

基尼指数(表示集合D的不确定性)

 技术分享

步骤如下:

1)        针对于数据集D的每一个特征,对其所有可能的取值a,计算在时的基尼指数

2)        选择基尼指数最小的特征及其对应的切分点,作为最优特征和最优切分点。

3)        将训练集依该特征及其切分点,分配到两个子结点中,对这两个子结点递归调用(1)(2),直至满足停止条件

4)        生成CART决策树

算法停止条件:

  •   结点中的样本个数小于预定阙值
  •   样本集的基尼指数小于预定阙值
  •   没有更多的特征。

决策树算法

标签:

原文地址:http://www.cnblogs.com/sweetyu/p/5085242.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!