决策树算法

时间：2017-06-01 16:54:14 阅读：322 评论：0 收藏：0 [点我收藏+]

1、决策树/判定树

决策树/判定树是一个类似于流程图的树结构，其中每个内部结点表示在一个属性上的测试，每个分支表示一个属性输出，而每个树叶结点代表类或者类分布。树的最顶层是根节点

如下图所示，根节点为Play 9 + Don‘t Play 5，根据OUTLOOK属性产生三个分支sunny、overcast、rain，其中为overcast时产生一个类，即Play 4 + Don‘t Play 0，为sunny和rain时还要继续根据其他属性来做划分。

技术分享

2、决策树构造

决策树的构造过程不依赖领域知识，它使用属性选择度量来选择将元组最好地划分成不同的类的属性。所谓决策树的构造就是进行属性选择度量确定各个特征属性之间的拓扑结构。

构造决策树的关键步骤是分裂属性。所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支，其目标是让各个分裂子集尽可能地“纯”。尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。分裂属性分为三种不同的情况：

1、属性是离散值且不要求生成二叉决策树。此时用属性的每一个划分作为一个分支。

2、属性是离散值且要求生成二叉决策树。此时使用属性划分的一个子集进行测试，按照“属于此子集”和“不属于此子集”分成两个分支。

3、属性是连续值。此时确定一个值作为分裂点split_point，按照>split_point和<=split_point生成两个分支。

构造决策树的关键性内容是进行属性选择度量，属性选择度量是一种选择分裂准则，是将给定的类标记的训练集合的数据划分D“最好”地分成个体类的启发式方法，它决定了拓扑结构及分裂点split_point的选择。

3、ID3算法

树以代表训练样本的单个结点开始。
如果样本都在同一个类，则该结点成为树叶，并用该类标号。
否则，算法使用称为信息增益的基于熵的度量作为启发信息，选择能够最好地将样本分类的属性。该属性成为该结点的“测试”或“判定”属性。在算法的该版本中，所有的属性都是分类的，即离散值。连续属性必须离散化。对测试属性的每个已知的值，创建一个分枝，并据此划分样本。算法使用同样的过程，递归地形成每个划分上的样本判定树。一旦一个属性出现在一个结点上，就不必在该结点的任何后代上考虑它。