码迷,mamicode.com
首页 > 其他好文 > 详细

决策树分类器

时间:2016-03-24 13:07:09      阅读:165      评论:0      收藏:0      [点我收藏+]

标签:

优点: 决策树计算复杂度不高,输出结果易于理解,对中间值缺失不敏感;缺点:可能会产生过度匹配的问题。适用于连续性和离散型数据;
专家系统中经常使用决策树,而且决策树给出的结果往往可以匹敌在当前领域具有几十年工作经验的人类专家。

 

技术分享

 

在如图的样本集中,我们如何构造决策树?或者决策树最根本的问题是什么?

技术分享

一共5个样本,2个信号特征,分为2类。那么要构造决策树,把那个特征作为第一个划分的依据呢?

划分数据集的最大原则:将无序的数据变得更加有序。划分数据集前后信息发生的变化成为信息增益——熵。

熵定义为信息的期望值。如果待分类的事物可能划分在多个分类中,则符号信息定义为

 

 

技术分享

技术分享

我们尝试按照第一特征和第二特征以此分类样本集,分别计算每次划分的 熵的大小。取最小的熵值作为划分的依据;
首先计算原始样本集的熵,记为sum0;

比如:按照第一特征,数据划分为A{[1,1],[1,1],[0,0]}和B{[1,0],[1,0]}, 分别计算两个 集合的熵,相加为sum1;

按照第二特征,数据划分为C{[1,1],[1,1],[0,0],[0,0]}和D{[1,0]}, 分别计算两个集合的熵,相加sum2;

最后,取三者的最小值。如果sum1和sum2 都大于sum0,则表明分类失败;

然后,按照此过程重复进行,直到该分支下的类别都一样。

 

参考资料:《机器学习实战》 Peter Harrington

 

决策树分类器

标签:

原文地址:http://www.cnblogs.com/hdu-2010/p/5314937.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!