首页
Web开发
Windows程序
编程语言
数据库
移动开发
系统相关
微信
其他好文
会员
首页
>
其他好文
> 详细
C4.5较ID3的改进
时间:
2015-06-28 16:57:41
阅读:
104
评论:
0
收藏:
0
[点我收藏+]
标签:
1.ID3选择最大化Information Gain的属性进行划分
C4.5选择最大化Gain Ratio的属性进行划分
规避问题:ID3偏好将数据分为很多份的属性
解决:将划分后数据集的个数考虑进去
entropy
(其中RF-relative frequency)
Information Gain->ID3
potential information of partition
Gain Ratio->C4.5
当数据被划分成很多份时,每一份占的比例变小,P(S,B)变大,Gain Ratio变小
2.C4.5中加入对missing value的处理
a.在构建树时
属性选择
按属性B进行划分,该属性为空的数据被标记为S0,不参与计算
当空值占多数时,G会偏小,使不偏向于选择空值多的属性
只考虑数据非空部分的信息获取量,并乘以权重
数据划分
属性B为空的数据,按其他类的比例分入子类中
Si类会得到|S0|*
各S0数据
b.进行预测时
叶子节点的各类预测的概率为其比例,比如(0.25,0.5,0.25)
在碰到节点,使用属性B进行划分,而此时要预测的数据Y,B为空,
则需要遍历各个子树的分类结果,并按各个子树构建时划分到的数据的数量多少决定权重
3.剪枝
没看明白...
来自为知笔记(Wiz)
C4.5较ID3的改进
标签:
原文地址:http://www.cnblogs.com/porco/p/4605668.html
踩
(
0
)
赞
(
0
)
举报
评论
一句话评论(
0
)
登录后才能评论!
分享档案
更多>
2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)
周排行
更多
分布式事务
2021-07-29
OpenStack云平台命令行登录账户
2021-07-29
getLastRowNum()与getLastCellNum()/getPhysicalNumberOfRows()与getPhysicalNumberOfCells()
2021-07-29
【K8s概念】CSI 卷克隆
2021-07-29
vue3.0使用ant-design-vue进行按需加载原来这么简单
2021-07-29
stack栈
2021-07-29
抽奖动画 - 大转盘抽奖
2021-07-29
PPT写作技巧
2021-07-29
003-核心技术-IO模型-NIO-基于NIO群聊示例
2021-07-29
Bootstrap组件2
2021-07-29
友情链接
兰亭集智
国之画
百度统计
站长统计
阿里云
chrome插件
新版天听网
关于我们
-
联系我们
-
留言反馈
© 2014
mamicode.com
版权所有 联系我们:gaon5@hotmail.com
迷上了代码!