GBDT

时间：2019-09-01 14:45:08 阅读：697 评论：0 收藏：0 [点我收藏+]

标签：方法加法 amp svm 转换分类算法 mat 经验 net

1、GBDT模型介绍；

2、GBDT回归算法

3、GBDT分类算法

4、GBDT的损失函数

5、正则化

6、GBDT的梯度提升与梯度下降法的梯度下降的关系；

7、GBDT的优缺点

1、GBDT模型介绍；

GBDT(Gradient Boosting Decision Tree) 又名：MART（Multiple Additive Regression Tree)

适用于分类和回归问题；

加法模型（基分类器的线性组合）

根据当前损失函数的负梯度信息来训练新加入的弱分类器，再将训练好的弱分类器以累加的形式结合到现有模型；

以决策树为基学习器的提升方法；一般会选择为CART（无论用于分类还是回归），也可以选择其他弱分类器的，选择的前提是低方差和高偏差，每次走一小步逐渐逼近结果的效果;

在训练过程中希望损失函数能够不断的减小，且尽可能快的减小。所以用的不是单纯的残差，而是损失函数的负梯度方向，这样保证每轮损失函数都在稳定下降，而且递减速度最快，类似于梯度下降法，来求损失函数的极小值；

Shrinkage（缩减）的思想认为，每次走一小步逐渐逼近结果的效果，要比每次迈一大步很快逼近结果的方式更容易避免过拟合。即它不完全信任每一个棵残差树，它认为每棵树只学到了真理的一小部分，累加的时候只累加一小部分，通过多学几棵树弥补不足。

技术图片

2、GBDT回归算法描述

技术图片

步骤：

1、初始化：估计是损失函数极小化的常数值；

2、更新回归树：

数据——训练基分类器1——训练数据的伪残差——训练基分类器2——......

　　计算每个样本的损失函数在当前模型的负梯度值，将它作为残差的近似值，即新一轮的训练目标；

　　根据残差的近似值，求出使对应的损失函数的和最小的，第m棵回归树（第m个基分类器）$h(x_{i},\alpha )$，$\beta $相当于给梯度了一个步长；**先构造CART树，当CART树的结构定下来之后，再求叶子节点的值；

　　根据目标lable，求出使对应经验损失最小的参数$\rho $，来确认第m轮得到的基分类器，在最后的模型中的占比；

　　训练模型，直至误差小于要求，或树的个数为M时；

3、输出回归模型；

3、GBDT分类算法描述

GBDT分类算法和回归算法思路一样；但类别相减得到的残差并没有意义；

解决方案有两种方法：

一是用指数损失函数，此时GBDT算法退化为AdaBoost算法。

二是用类似于逻辑回归的对数似然损失函数的方法。也就是说，我们用的是类别的预测概率值和真实概率值的差来拟合损失。

此处介绍方法二，估计概率的方式；

1）二元分类

输入：训练数据集 $技术图片$ ，损失函数为 $技术图片$ ，y={-1，1}

输出：分类树 $技术图片$

（1）初始化：

$技术图片$

（2）对 $技术图片$ ：

　　（a）对样本 $技术图片$ ，计算伪残差

$技术图片$

　　（b）对概率残差 $技术图片$ 拟合一个分类树，得到第m棵树的叶节点区域 $技术图片$ 　， $技术图片$

　　（c）对 $技术图片$ ， $技术图片$ ，计算

$技术图片$

　　　　**对于（b）(c)，这里拟合分类树应该还是首先遍历每个特征，然后对每个特征遍历它所有可能的切分点，然后对该分类树求使经验风险最小的切分及参数（就是叶节点区域的预测值），由于这个式子比较难算，就用（c）来近似了。

　　（d）更新

$技术图片$

（3）得到最终的分类树

$技术图片$

由于我们用的是类别的预测概率值和真实概率值的差来拟合损失，所以最后还要讲概率转换为类别，如下：

$技术图片$

最终输出比较类别概率大小，概率大的就预测为该类别。

（用的损失函数使对数损失，所以这里用上面的式子来计算类别；

当y=1时，损失函数最小需要F(X)=正无穷，此时y=1的概率为1，y=0的概率为0；

当y=-1时，损失函数最小需要F(X)=负无穷，此时y=1的概率为0，y=0的概率为1；）

其实二元分类和回归的原理是一样的，只是把分类的lable改成了预测概率，再通过概率来预测类别；

2）多元分类

输入：训练数据集 $技术图片$ ，损失函数为 $技术图片$ ， $技术图片$ =｛0，1｝表示是否属于第k类别，1表示是，0表示否。 $技术图片$ ，表示共有多少分类的类别。

输出：分类树 $技术图片$

相当于在训练的时候，是针对样本 X 每个可能的类都训练一个分类树。

（1）初始化：

$技术图片$ ， $技术图片$

（2）对 $技术图片$ ：

　　（a）计算样本点俗属于每个类别的概率：

$技术图片$

　　（b）对k=1,2,...,K：zhi

　　　　1） $技术图片$ ， $技术图片$ （这是根据损失函数和P（x）求导算出来的，体现了负梯度的概念）

　　2）对概率伪残差 $技术图片$ 拟合一个分类树

　　3） $技术图片$ （跟二分类一样，这也是一个近似计算方法）

　　4） $技术图片$

（3）得到最终的分类树（这是K类中的第k类的GBDT方法求出来的模型）

$技术图片$

最后得到的 $技术图片$ 可以被用来去得到分为第k类的相应的概率 $技术图片$ ：

$技术图片$

相当于对每一类都有一个求GBDT的概念，只是该类的预测值不仅与该类本身有关，还与剩余的K-1个GBDT模型的输出相关；

损失函数的求导：

对于第k类的第i个样本的损失函数为：

$L(y_{ki},f_{k}(x_{i}))=-\sum_{l=1}^{K}y_{li}\ln P_{li}$对于样本i来说，只有一个类别的y为1，其他的都是0,$\sum_{l=1}^{K}y_{li}=1$；

$P_{ki}=\frac{exp(f_{k}(x_{i}))}{\sum_{l=1}^{K}exp(f_{l}(x_{i}))}$

$L(y_{ki},f_{k}(x_{i}))=-\sum_{l=1}^{K}y_{li}\ln P_{li}=y_{ki}\ln P_{ki}+\sum_{l\neq k}^{}y_{li}\ln P_{li}=y_{ki}\ln \frac{exp(f_{k}(x_{i}))}{\sum_{l=1}^{K}exp(f_{l}(x_{i}))}+\sum_{l\neq k}^{}y_{li}\ln\frac{exp(f_{l}(x_{i}))}{\sum_{l=1}^{K}exp(f_{l}(x_{i}))} $

两项都有$f_{k}(x_{i})$,在分别求导会得到 $技术图片$

当损失函数为平方损失函数时，即为残差；提升树是GBDT的一种，即损失函数为平方损失函数时；

4、GBDT的损失函数

对于分类算法，其损失函数一般有对数损失函数和指数损失函数两种:

（1）exponential：指数损失，表达式如下：

$技术图片$