转载：ID3算法

时间：2016-03-07 10:15:46 阅读：208 评论：0 收藏：0 [点我收藏+]

标签：

ID3算法

ID3算法是J. Ross Quinlan在1975提出的分类预测算法。该算法的核心是“信息熵”。

信息熵就是一组数据包含的信息，概率的度量。一组数据越有序信息熵也就越低，极端时如果一组数据中只有一个非0，其它都是0，那么熵等于0，因为只有可能是这个非0的情况发生，它给人们的信息已经确定了，或者说不含有任何信息了，因为信息熵含量为0。一组数据越无序信息熵也就越高，极端时如果一组数据均匀分布，那么它的熵最大，因为我们不知道那种情况发生的概率大些。假如一组数据由{d1,d2,...,dn}构成，其和是sum,那么求信息熵的公式是

。

分类预测算法属于有指导学习，方法是通过训练数据，按照参考属性对目标属性的依赖程度对参考属性分级别处理，这种分级别处理体现在创建决策树，目的是通过生成的判别树，产生规则，用来判断以后的数据。以如下数据为例：

共14条记录，目标属性是，是否买电脑，共有两个情况，yes或者no。参考属性有4种情况，分别是，age,income,student,credit_rating。属性age有3种取值情况，分别是youth,middle_aged,senior。属性income有3种取值情况，分别是,high,medium,low。属性student有2种取值情况，分别是，no,yes。属性credit_rating有2种取值情况，分别是fair,excellent。我们先求参考属性的信息熵：