码迷,mamicode.com
首页 > 其他好文 > 详细

决策树

时间:2017-11-25 16:18:05      阅读:110      评论:0      收藏:0      [点我收藏+]

标签:tle   logs   ima   子集   决策树   分享图片   原则   alt   image   

决策树:

  决策树很多任务都是为了数据中所蕴含的知识信息,在不熟悉的数据集合中提取出一系列规则,机器学习算法再使用规则。 

1. 决策树的构造

  我们必须评估每个特征。完成测试之后,原始数据集就被划分为几个数据子集,几个数据子集就是决策点的分支。若某个分支下的数据属于同一类型则不需要进一步的数据集分割,否则重复划分数据子集的过程。划分子集和原始数据的算法和方法一样,目的就是将相同的数据类型放到一个数据子集。

  1.1 信息论划分数据集 (这里用ID3算法划分数据集)

    组织杂乱无章数据的一种方法就是使用信息论度量信息,信息论是量化处理信息的分支科学 

    划分数据的最大原则是:将无序变为更加有序。

            第一次对于根据哪个特征值划分划分?

  1.2 信息增益

    信息增益定义:在划分数据集之前之后信息发生的变化 。知道它就可以根据信息增益,获取信息增益最高的特征是最好的选择。

    信息增益计算:集合信息的度量称为香农熵(熵)

            信息的定义:技术分享图片,其中p(xi)是选择该分类的概率。

    熵是信息的期望值:技术分享图片

 

 

 
 

决策树

标签:tle   logs   ima   子集   决策树   分享图片   原则   alt   image   

原文地址:http://www.cnblogs.com/xiexiaoxiao/p/7895267.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!