标签:
在如图的样本集中,我们如何构造决策树?或者决策树最根本的问题是什么?
一共5个样本,2个信号特征,分为2类。那么要构造决策树,把那个特征作为第一个划分的依据呢?
划分数据集的最大原则:将无序的数据变得更加有序。划分数据集前后信息发生的变化成为信息增益——熵。
熵定义为信息的期望值。如果待分类的事物可能划分在多个分类中,则符号信息定义为
我们尝试按照第一特征和第二特征以此分类样本集,分别计算每次划分的 熵的大小。取最小的熵值作为划分的依据;
首先计算原始样本集的熵,记为sum0; 比如:按照第一特征,数据划分为A{[1,1],[1,1],[0,0]}和B{[1,0],[1,0]}, 分别计算两个 集合的熵,相加为sum1; 按照第二特征,数据划分为C{[1,1],[1,1],[0,0],[0,0]}和D{[1,0]}, 分别计算两个集合的熵,相加sum2; 最后,取三者的最小值。如果sum1和sum2 都大于sum0,则表明分类失败; 然后,按照此过程重复进行,直到该分支下的类别都一样。
参考资料:《机器学习实战》 Peter Harrington
标签:
原文地址:http://www.cnblogs.com/hdu-2010/p/5314937.html