码迷,mamicode.com
首页 > 其他好文 > 详细

决策树

时间:2018-10-26 12:09:32      阅读:238      评论:0      收藏:0      [点我收藏+]

标签:算法   信息   二分   回归   c4.5   缺点   离散   离散化   规则   

(1)建树

   1. 选择属性

       ID3算法用的是信息增益,C4.5算法用信息增益率;CART算法使用基尼系数

  2. 选择属性的最优分割点

     ID3算法:使用信息增益作为分裂的规则,信息增益越大,则选取该分裂规则。多分叉树

                     缺点:归纳偏置问题: ID3算法会偏向于选择类别较多的属性

                                 另外输入变量必须是分类变量(连续变量必须离散化)

                                 最后无法处理空值。

     C4.5算法:使用信息增益率作为分裂规则,避免了ID3算法中的归纳偏置问题;多分叉树

                       连续属性的分裂只能二分裂,离散属性的分裂可以多分裂

     CART算法:既可以做分类,也可以做回归。只能形成二叉树。

                         分支方法:连续特征:比较阈值;离散特征:抽取子特征

                         得分函数分类树:众数,回归树:均值。

                         损失函数:分类树:基尼系数;回归树:平方差

                         分类规则:分类树:基尼系数;回归树:平方差

(2)剪枝

决策树

标签:算法   信息   二分   回归   c4.5   缺点   离散   离散化   规则   

原文地址:https://www.cnblogs.com/hapyygril/p/9855452.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!