1.基本概念 1)定义: 决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系,树中每个节点代表的某个可能的属性值。 2)表示方法: 通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每一个结点指定了对某个属性的测试,并在该结点的每一个后继分支对...
分类:
编程语言 时间:
2015-03-17 21:39:15
阅读次数:
226
决策树入门篇前言:分类是数据挖掘中的主要分析手段,其任务就是对数据集进行学习并构造一个拥有预测功能的分类模型,用于预测未知样本的类标号,把类标号未知的样本按照某一规则映射到预先给定的类标号中。分类模型学习方法其中一类就是基于决策树的学习方法,下面,简单总结一下决策树的基础知识和构造决策树的两种算法:...
分类:
其他好文 时间:
2015-03-16 22:44:06
阅读次数:
127
数据分类的两个阶段:学习阶段(构造分类模型)和分类阶段(使用模型预测给定数据的类标号)和分类阶段(使用模型预测给定数据的类标号)。 决策树归纳 构造一颗树,从根到叶子节点的路径,该叶子节点就存放着该元组的预测类。 决策树分类器的构造不需要任何领域知识和参数设置,因此适合于探测式知识发现。决策树可以处...
分类:
其他好文 时间:
2015-03-15 18:06:31
阅读次数:
296
一、引言之前提到的k-近邻算法是分类数据最简单最有效的算法。k-近邻算法是基于实例的学习,使用算法时我们必须有接近实际数据的训练样本数据。而且,k-近邻数据必须保全全部数据集,如果训练数据集的很大,必须使用大量的存储空间,此外k-近邻算法必须对数据集中的每个数据计算距离,这是非常耗时的。另外,对于数...
分类:
其他好文 时间:
2015-03-12 22:13:24
阅读次数:
174
决策树是简单的,易懂的,易实现的,同样也是强大的。 决策树本身是一连串的if-else的组合,其最关键的问题就是对于一个输入数据集我们应该怎么去寻找这个if-else规则。按照先贤们的分法主要有如下几种:ID3,C4.5,CART。本文也将介绍这三种决策树。 一、ID3 要想弄明白ID3决...
分类:
其他好文 时间:
2015-03-11 23:14:33
阅读次数:
171
http://www.tuicool.com/articles/Un6j2a信息量信息量有这个事件发生的概率所决定,经常发生的事件是没有什么信息量的,比如你天天要吃饭,这个大家都知道。只有小概率事件才有信息量,比如马航失踪这种突发新闻比如下面的例子,可以看出汉字的信息量要远远大于英文字母的(当然现实...
分类:
其他好文 时间:
2015-03-10 18:56:26
阅读次数:
131
决策树学习是应用最广泛的归纳推理算法之一,是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一棵决策树。决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,机器学习算法最终将使用这些从数据集中创造的规则。决策树的优点为:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点为:可能产生过度匹配的问题。决策树适于处理离散型和连续型的数据。
在决策树中...
分类:
编程语言 时间:
2015-03-05 17:01:51
阅读次数:
300
决策树就是不断选择信息增益最大的属性,进行分类。
核心部分是使用信息增益判断属性的分类性能。信息增益计算如下:
信息熵:
允许有多个类别。
计算所有属性的信息增益,选择最大的作为决策树的根节点。然后,样本分枝,继续判断剩余的属性的信息增益。
信息增益有缺点:信息增益偏袒具有较多值的属性。分裂信息,用增益比率作为衡量标准,如下:
决策树...
分类:
编程语言 时间:
2015-03-02 13:12:55
阅读次数:
346
起源:决策树切分数据集决策树每次决策时,按照一定规则切分数据集,并将切分后的小数据集递归处理。这样的处理方式给了线性回归处理非线性数据一个启发。能不能先将类似特征的数据切成一小部分,再将这一小部分放大处理,使用线性的方法增加准确率呢?Part I: 树的枝与叶枝:二叉 or 多叉? 在AdaBoos...
分类:
其他好文 时间:
2015-03-02 00:54:58
阅读次数:
229
①起源:Boosting算法Boosting算法的目的是每次基于全部数据集,通过使用同一种分类器不同的抽取参数方法(如决策树,每次都可以抽取不同的特征维度来剖分数据集)训练一些不同弱分类器(单次分类错误率>0.5),然后将其组合起来,综合评估(默认认为每个分类器权重等价)进行分类。AdaBoost算...
分类:
其他好文 时间:
2015-02-22 06:44:38
阅读次数:
174