码迷,mamicode.com
首页 > 其他好文 > 详细

决策树与随机森林

时间:2017-05-15 16:28:02      阅读:271      评论:0      收藏:0      [点我收藏+]

标签:投影   有监督   art   style   节点   优缺点   section   能力   度量   

决策树

  决策树学习采用的是自顶向下的递归方法, 其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,

  此时每个叶节点中的实例都属于同一类。

决策树三种生成算法

  1. ID3 --- 信息增益 最大的准则
  2. C4.5 --- 信息增益比 最大的准则
  3. CART
    • 回归树: 平方误差 最小 的准则
    • 分类树: 基尼系数 最小的准则
  • 最大优点: 可以自学习。在学习的过程中,不需要使用者了解过多背景知识,只需要对训练实例进行较好的标注,就能够进行学习。
  • 显然,属于有监督学习。

决策树的优缺点

  • 优点: 决策树对训练属于有很好的分类能力,可以自学习。在学习的过程中,不需要使用者了解过多背景知识,只需要对训练实例进行较好的标注,就能够进行学习。
  • 缺点: 但对未知的测试数据未必有好的分类能力,泛化 能力弱,即可能发生过拟合现象。
    • 剪枝
    • 随机森林

随机森林

  随机森林能够解决, 决策树的过拟合问题. 随机森林用训练集生成多个(非常深的)决策树.在预测时, 每个树的都会预测一个结果, 每个结果加权表决, 来避免过拟合.

  例如, 如果你训练了3个树, 其中有2个树的结果是A, 1个数的结果是B, 那么最终结果会是A.  

1. 加入随机性: 训练集的子空间(bootstrap有放回采样):

  Bootstraping的名称来自成语“pull up by your own bootstraps”,意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法.

2. 加入随机性: 采样特征子空间(无放回采样)

3. 加入随机性: 加入新特征(合并, 低维的投影)

决策树与随机森林

标签:投影   有监督   art   style   节点   优缺点   section   能力   度量   

原文地址:http://www.cnblogs.com/hustercn/p/6856824.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!