码迷,mamicode.com
首页 > 编程语言 > 详细

决策树算法

时间:2018-12-26 15:53:58      阅读:183      评论:0      收藏:0      [点我收藏+]

标签:缺失值   bsp   信息论   www   算法   过拟合   com   特征   处理   

这两篇文章(上,下)已经总结得很好了

http://www.cnblogs.com/pinard/p/6050306.html  https://www.cnblogs.com/pinard/p/6053344.html

1. 数学基础

1.信息论的信息熵:Entropy

2.基尼不纯度:Gini impurity

2. 类型

常见三种决策树算法:决策树ID3算法, 决策树C4.5算法, CART分类树算法

ID3算法是用信息增益大小来判断当前节点应该用什么特征来构建决策树

ID3算法有四个主要的不足,一是不能处理连续特征,第二个就是用信息增益作为标准容易偏向于取值较多的特征,最后两个是缺失值处理的问和过拟合问题

C4.5算法使用信息增益比的变量IR(X,Y),它是信息增益和特征熵的比值

CART算法使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的

决策树算法

标签:缺失值   bsp   信息论   www   算法   过拟合   com   特征   处理   

原文地址:https://www.cnblogs.com/guodavid/p/10178933.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!