码迷,mamicode.com
首页 > 其他好文 > 详细

DecisionTree

时间:2017-03-01 22:39:05      阅读:192      评论:0      收藏:0      [点我收藏+]

标签:png   公式   blog   ges   条件   images   技术分享   nbsp   剪枝   

1.信息增益的定义,也就是互信息

技术分享

2.信息增益的推导

技术分享

技术分享 

 技术分享

由公式即可得到信息增益

信息增益存在偏向于选择取值较多的特征的问题,信息增益比可以对这一问题进行修正

3.信息增益比技术分享

4.基尼指数,基尼指数越大,样本集合的不确定性也就越大,与熵类似

 技术分享

5.ID3算法,使用信息增益作为特征选择准则,递归选择信息增益最大的特征,递归终止条件是信息增益小于某个阈值

6.C4.5算法,使用信息增益比作为选择标准

7.CART(分类与回归树) 回归树以平方误差最小化为准则选择特征,分类树使用基尼指数作为特征选择标准,选择基尼指数最小的作为特征。

7.决策树的剪枝,对付过拟合

损失函数技术分享,其中技术分享,<Tleaf>是叶子结点的个数

Nt是第t个叶子结点的样本点个数,H(t)为叶节点t的经验熵,或者是基尼指数

如果是经验熵技术分享,Ntk是节点t上属于第k类的样本的个数。

CART树的剪枝算法

第一步:剪枝系数的确定

技术分享

第二步:剪枝算法

技术分享

 

DecisionTree

标签:png   公式   blog   ges   条件   images   技术分享   nbsp   剪枝   

原文地址:http://www.cnblogs.com/fisherinbox/p/6486379.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!