决策树总结（一）

时间：2015-12-20 22:10:32 阅读：3367 评论：0 收藏：0 [点我收藏+]

标签：

摘要：决策树是一种重要的分类和回归方法，具有可读性强、分类速度快等特点。决策树是一种树形结构，通过多个If-then规则实现分类或者回归的目的。

1.决策树的定义

树想必大家都会比较熟悉，由节点和边两种元素组成的结构。有几个关键词，根节点、父亲节点、孩子节点和叶子节点。

父亲节点和孩子节点是相对的，说白了孩子节点由父亲节点根据某一规则分裂而来，然后孩子节点作为新的父亲节点继续分裂，直至不能分裂为止。而根节点是没有父亲的节点，即初始分裂点，叶子节点是孩子的节点，如下图所示：

技术分享

决策树就是用树的结构去做决策，从跟节点开始，不断对数据进行分裂，最终到达的叶子节点就为输出的结果。

2. 决策树如何做决策

从一个简单的分类例子说起：

银行通过一个人的信息去判断这个人是否贷款的意向，具体的信息如下：

职业	年龄	收入	学历	是否贷款
自由职业	28	5000	高中	是
工人	36	5500	高中	否
工人	42	2800	初中	是
白领	45	3300	小学	是
白领	25	10000	本科	是
白领	32	8000	硕士	否
白领	28	13000	博士	是
自由职业	21	4000	本科	否
自由职业	22	3200	小学	否
工人	33	3000	高中	否
工人	48	4200	小学	否

（注：上表中的数据都由本人捏造，不具有任何实际的意义）

决策树的做法是利用树的结构，每次用一个属性进行分类，知道得到我们要的结果或者已经不能再分为止，如下图所示：

技术分享

通过我们的训练数据，可以得到上述的决策树，如果要分析某一客户是否有贷款的意向，直根据该客户的信息就可以分析得出结果。

如某客户的信息为：{职业、年龄，收入，学历}={工人、39， 1800，小学}，将信息输入上述决策树，可以得到下列的分析步骤和结论。

第一步：根据该客户的职业进行判断，选择“工人”分支

技术分享

第二步：根据客户的年龄进行选择，选择年龄”<=40”这一分支

技术分享

第三步：根据客户的学历进行选择，选择”小学”这一分支，得出该客户无贷款意向的结论

技术分享

3. 如何构建决策树

决策树的构建是数据逐步分裂的过程，构建的步骤如下:

步骤1：将所有的数据看成是一个节点，进入步骤2；

步骤2：从所有的数据特征中挑选一个数据特征对节点进行分割，进入步骤3；

步骤3：生成若干孩子节点，对每一个孩子节点进行判断，如果满足停止分裂的条件，进入步骤4；否则，进入步骤2；

步骤4：设置该节点是子节点，其输出的结果为该节点数量占比最大的类别。

从上述步骤可以看出，决策生成过程中有两个重要的问题：

（1）数据如何分割

（2）如何选择分裂的属性

（3）什么时候停止分裂

3.1 数据分割

数据分为离散型和连续性两种情况，对于离散型的数据，按照属性值进行分裂，一个属性值对应一个分裂节点；对于连续性属性，一般性的做法是对数据按照该属性进行排序，再将数据分成若干区间，如[0,10]、[10,20]、[20,30]…，一个区间对应一个节点，若数据的属性值落入某一区间则该数据就属于其对应的节点。

例：

表3.1 分类信息表