C4.5是另一个分类决策树算法,是基于ID3算法的改进,改进点如下: 1、分离信息 解释:数据集通过条件属性A的分离信息,其实和ID3中的熵; 2、信息增益率 解释:Gain(A)为获的A的信息增益,C4.5中选择具有最大增益率的属性作为分裂属性; 3、C4.5中所采用的悲观剪枝法 解释:数据的内容 ...
分类:
编程语言 时间:
2016-10-21 10:18:40
阅读次数:
124
ID3算法(Iterative Dichotomiser 3 迭代二叉树3代),是一个由Ross Quinlan发明的用于决策树的算法;简单理论是越是小型的决策树越优于大的决策树。 算法归纳: 1、使用所有没有使用的属性并计算与之相关的样本熵值; 2、选取其中熵值最小的属性 3、生成包含该属性的节点 ...
分类:
编程语言 时间:
2016-10-13 09:28:25
阅读次数:
213
本文申明:本文原创,如有转载请申明。数据代码来自实验数据都是来自【美】Peter Harrington 写的《Machine Learning in Action》这本书,侵删。 Hello,又和大家见面了,今天心情出奇的好,不知道为什么。就是好。。。此处省略一万字。。。上一次和大家说了,决策树的理 ...
分类:
编程语言 时间:
2016-09-09 15:15:55
阅读次数:
559
在上述两篇的文章中主要讲述了决策树的基础,但是在实际的应用中经常用到C4.5算法,C4.5算法是以ID3算法为基础,他在ID3算法上做了如下的改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足,公式为GainRatio(A); 2) 在树构造过程中进行剪枝; ... ...
分类:
编程语言 时间:
2016-08-20 21:53:13
阅读次数:
211
决策树是一种非常经典的分类器,它的作用原理有点类似于我们玩的猜谜游戏。比如猜一个动物: 问:这个动物是陆生动物吗? 答:是的。 问:这个动物有鳃吗? 答:没有。 这样的两个问题顺序就有些颠倒,因为一般来说陆生动物是没有鳃的(记得应该是这样的,如有错误欢迎指正)。所以玩这种游戏,提问的顺序很重要,争取 ...
分类:
编程语言 时间:
2016-08-19 14:40:15
阅读次数:
317
分类树(决策树)是一种十分常用的分类方法。他是一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。
下面介绍用ID3算法构造决策树的过程(参考
http://blog.csdn.net/acdreamers/article/details/...
分类:
系统相关 时间:
2016-07-03 19:36:54
阅读次数:
466
在有限的样本下,如果决策树生长得很大,树枝很多,那么就有可能导致有限样本中对采样的偶然性或噪声比较敏感,导致过学习,从而范化能力差。
首先来看一幅图,如图:
上图是一次测试中用ID3算法得到的有关决策树的大小与在训练数据和测试数据上的正确率的关系,不难看出,出现了过学习,如果样本不足够多,随着决策树达到一定规模大小,训练数据上的正确率会不断增加,而在测试数据上的正确率不增...
分类:
其他好文 时间:
2016-06-21 08:04:48
阅读次数:
211
在ID3算法完全掌握的基础上,学习C4.5算法,需要明白以下几件事: 1、C4.5如何划分数据集?——用信息增益比; 2、连续型属性如何处理?——选择划分属性时,当做离散变量;选择划分点时,用信息增益来选。 3、如何剪枝?——基于误判的剪枝和悲观剪枝,后者更加常用。 参考: http://shiya ...
分类:
其他好文 时间:
2016-06-15 12:17:16
阅读次数:
118
决策树从数据集合中提取出一系列的规则,这些规则可以用流程图表示,其数据形式非常容易理解;专家系统中就经常使用决策树。 1、决策树的构造:①采用ID3算法(最高信息增益)划分数据集;②递归创建决策树。 2、使用matplotlib的注解功能,可以将存储的树结构转化为容易理解的图形。 3、使用pytho ...
分类:
其他好文 时间:
2016-06-10 19:06:07
阅读次数:
178
决策树基本概念ID3算法,利用信息增益进行分类属性经典数据集@relation weather.symbolic@attribute outlook {sunny, overcast, rainy}
@attribute temperature {hot, mild, cool}
@attribute humidity {high, normal}
@attribute windy {TRUE, F...
分类:
编程语言 时间:
2016-05-27 11:40:54
阅读次数:
212