感性认识决策树
构建决策树的目的是对已有的数据进行分类,得到一个树状的分类规则,然后就可以拿这个规则对未知的数据进行分类预测。
决策树归纳是从有类标号的训练元祖中学习决策树。
决策树是一种类似于流程图的树结构,其中每个内部节点(非树叶结点)表示一个属性上的测试,每个分支代表该测试上的一个输出,而每个树叶结点(或终端结点)存放一个类标号。树的最顶层结点是根结点。一个典型的决策树如下图所示,
该决策树是通过下表所示的训练元组和它们对应的类标号得到的,
为什么决策树如此流行
决策树分类器的构造不需要任何领域知识或参数设置,因此适合于探测式知识发现。决策树可以处理高维数据。获取的知识用树的形式表示是直观的,并且容易被人理解。决策树归纳的学习和分类步骤是简单和快速的。一般而言,决策树分类器具有很好的准确率。然而,成功的使用可能依赖手头的数据。决策树归纳算法已经成功应用于多个领域的分类,如医学、制造和生产、金融分析、天文学和分子生物学等。决策树归纳是需要商业规则归纳系统的基础。
决策树归纳
决策树归纳是一个一般的算法框架,根据选择属性准则的不同有三种不同的算法(应该不止这三种):ID3、C4.5、CART。其中C4.5是ID3的提出者对ID3的一种改进,ID3(20世纪70年代后期到20世纪80年代初期)和CART(1984年)大约同时独立的发明,这两个基础算法引发了决策树归纳的风潮。
ID3、C4.5、CART都采用贪心(即非回溯的)方法,决策树以自顶向下递归的分治方式构造。随着树的构建,训练集递归地划分成较小的子集。
基本决策树归纳算法伪代码如下图所示,
伪代码写的还是比较清楚的,详细的步骤说明就不罗列出来了,想了解更多参看《数据挖掘概念与技术(第3版)》214页-216页。
ID3、C4.5、CART
这三种不同的决策树构造方法我们都会进行Java实现,详情见后边的文章。
ID3:http://blog.csdn.net/zhyoulun/article/details/42268413
C4.5:
CART:
参考:《数据挖掘概念与技术(第3版)》
转载请注明出处:http://blog.csdn.net/zhyoulun/article/details/41978381
原文地址:http://blog.csdn.net/zhyoulun/article/details/41978381