码迷,mamicode.com
首页 > 其他好文 > 详细

四、决策树、随机森林、GBDT、XGBoost

时间:2018-02-19 14:21:19      阅读:193      评论:0      收藏:0      [点我收藏+]

标签:-o   trap   算法   stc   bre   决策   die   条件   剪枝   

(本节课各种数学式子比较多。。。。。^_^)

决策树 Decision Tree
? 介绍
? 熵 Entropy
? 信息增益 Information Gain
? 常见算法
? 过度拟合 Overfitting
? 剪枝 Prune
? 增益率 GainRatio
? 更多的DT应?场景类别:
? 连续函数,多分类,回归
? 决策树的究极进化 Ensemble
? Bagging
? Random Forest
? Boosting
? GBDT
? XGBoost

 

决策树

  分治思想

  根据不同的条件作出相应的决定

  区分数据

信息增益

决策树算法:  

  ID3算法

  C4.5算法

  CART算法

 

 

Bagging (Breiman, 1996)
Fit many large trees to bootstrap-resampled versions of the training
data, and classify by majority vote.


Random Forest 

  1、从原始训练数据集中,应?bootstrap?法有放回地随机抽取k个新的?助样本集,
并由此构建k棵分类回归树,每次未被抽到的样本组成了K个袋外数据(out-of-
bag,BBB)。
  2、设有n个特征,则在每?棵树的每个节点处随机抽取m个特征,通过计算
每个特征蕴含的信息量,特征中选择?个最具有分类能?的特征进?节点分裂。
  3、每棵树最?限度地?长, 不做任何剪裁
  4、将?成的多棵树组成随机森林, ?随机森林对新的数据进?分类,
分类结果按树分类器投票多少?定。

Boosting
  1. 先在原数据集中长出?个tree
  2. 把前?个tree没能完美分类的数据重新weight
  3. ?新的re-weighted tree再训练出?个tree
  4. 最终的分类结果由加权投票决定

  AdaBoost

    步骤1. ?先,初始化训练数据的权值分布。每?个训练样本最开始时都被
赋予相同的权值:1/N

      步骤2. 进?多轮迭代,?m = 1,2, ..., M表?迭代的第多少轮

    步骤3. 组合各个弱分类器

 

Gradient Boostcd Decision Tree (GBDT)

特点:

   a. Adaboost的Regression版本 

   b. 把残差作为下?轮的学习?标
     c. 最终的结果有加权和值得到,不再是简单的多数投票

 

 

XGBoost
  本质还是个GBDT,但是是把速度和效率做到了极致,所以叫X (Extreme) GBoosted

 

训练 模型

  房价预测案例

 

四、决策树、随机森林、GBDT、XGBoost

标签:-o   trap   算法   stc   bre   决策   die   条件   剪枝   

原文地址:https://www.cnblogs.com/qianyuesheng/p/8453606.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!