决策树(decision tree) 决策树:是一种基本的分类和回归方法。它是基于实例特征对实例进行分类的过程,我们可以认为决策树就是很多if-then的规则集合。 优点:1)训练生成的模型可读性强,我们可以很直观的看出生成模型的构成已经工作方式,因为模型就是由数据属性和类别构成一棵树。 ...
分类:
其他好文 时间:
2014-08-12 21:34:44
阅读次数:
257
上一节我们学习knn,kNN的最大缺点就是无法给出数据的内在含义,而使用决策树处理分类问题,优势就在于数据形式非常容易理解。 决策树的算法有很多,有CART、ID3和C4.5等,其中ID3和C4.5都是基于信息熵的,也是我们今天的学习内容。1. 信息熵 熵最初被用在热力学方面的,由热力学第二...
分类:
其他好文 时间:
2014-08-12 02:58:03
阅读次数:
2296
k-近邻算法可以完成很多分类任务,但是它最大的缺点就是无法给出数据的内在含义,决策树的主要优势在于数据形式非常容易理解。比如给你一个100以内的数来猜,通过对你猜的数的是大还是小来引导你得到最后的结果。优点:计算复杂度低,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特诊数据。缺点:可能会产...
分类:
其他好文 时间:
2014-08-06 18:37:41
阅读次数:
290
机器学习问题方法总结大类名称关键词有监督分类决策树信息增益分类回归树Gini指数,Χ2统计量,剪枝朴素贝叶斯非参数估计,贝叶斯估计线性判别分析Fishre判别,特征向量求解K最邻近相似度度量:欧氏距离、街区距离、编辑距离、向量夹角、Pearson相关系数逻辑斯谛回归(二值分类)参数估计(极大似然估计...
分类:
其他好文 时间:
2014-08-03 23:05:56
阅读次数:
416
转自:http://blog.chinaunix.net/uid-446337-id-94440.html分类:机器学习的有概率分类器(probabilistic) ,贝叶斯推理网络(bayesian inference networks) , 决策树分类器(decision tree) ,决策规则...
分类:
其他好文 时间:
2014-07-31 19:33:17
阅读次数:
411
决策树(Decison Tree)之所以称为树是因为其建模过程类似一棵树的成长过程,即从根部开始,到树干,到分支,再到细枝末叶的分叉,最终胜出出一片片的树叶。在数据树里面,所分析的数据数据样本先是成为一个树根,然后经过层层分支,最终形成若干个节点,每个节点代表一个结论。 决策树算法之所以在数据...
分类:
其他好文 时间:
2014-07-30 03:16:42
阅读次数:
257
信息熵和信息增益
一、信息熵
信息熵是信息论中的基本概念。信息论由Shannon于1948年提出并发展起来,用于解决信息传递过程中的问题,也称统计通信理论。它认为:
1、信息传递由信源、信道和信宿组成;
2、传递系统存在于一个随机干扰环境中,因此传递系统对信息的传递是随机误差的。如果把发送信息记为U而接收到信息记 V,由信道可记为通信模型,为P(U|V)。信道模型是一个条件...
分类:
其他好文 时间:
2014-07-28 00:03:29
阅读次数:
451
开场白:已经是第五篇软考文章了,也是最后一篇计算题的文章,基本包含了信管考试的全部计算题,因为现在离考试还早,北京地区8月11日报名,可以先学习一遍,考前再来复习一遍。这篇文章包含了许多实例,不对各实例的意义进行讲解了,都比较简单,看实例讲解,会算就可以了。前..
分类:
其他好文 时间:
2014-07-22 18:24:42
阅读次数:
785
一篇关于决策树算法ID3的好文.包括原理讲解和算法的C++实现实例....
分类:
编程语言 时间:
2014-07-22 17:56:51
阅读次数:
614
决策树的优势就在于数据形式非常容易理解,而kNN的最大缺点就是无法给出数据的内在含义。
1:简单概念描述
决策树的类型有很多,有CART、ID3和C4.5等,其中CART是基于基尼不纯度(Gini)的,这里不做详解,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样的,本次定义主要针对ID3算法。下面我们介绍信息熵的定义。
事件ai发生的概率用p(ai...
分类:
其他好文 时间:
2014-07-21 22:21:08
阅读次数:
360