GBDT的基本原理

时间：2015-03-08 15:29:50 阅读：543 评论：0 收藏：0 [点我收藏+]

标签：

这里以二元分类为例子，给出最基本原理的解释

? ?

GBDT 是多棵树的输出预测值的累加

GBDT的树都是回归树而不是分类树

? ?

分类树

技术分享

? ?

分裂的时候选取使得误差下降最多的分裂

技术分享

计算的技巧

技术分享

最终分裂收益按照下面的方式计算，注意圆圈内的部分是固定值

技术分享

GBDT 二分类

GBDT在实现中可以完全复用上面的计算方法框架，只是我们的优化的目标函数不同。

这里使用的是指数误差函数，不管是预测正确还是错误误差值都存在，但是正确的预测会使得误差值小于错误的预测参考

AdaBoost and the Super Bowl of Classi?ers

A Tutorial Introduction to Adaptive Boosting

技术分享

关于常用误差函数参考 http://www.cnblogs.com/rocketfan/p/4083821.html

? ?

参考 Greedy Functon Approximation:A Gradient Boosting Machine

4.4节关于二分类情况误差函数的设计

技术分享

这里其实和上面给出的一样，只是增加了 log(1 +, 另外多了一个2,2yF)

技术分享

? ?

这个F值其实就是逻辑回归的思路，类似语言语言处理一书27页解释，线性加权的值用来预测 p(true) p(false)的比例，越是接近true，那么F(x)越接近1， p(false)越大那么越接近0

技术分享

? ?

对误差函数计算关于F的梯度，误差函数是

技术分享

变量是F(x)

技术分享

? ?

考虑learning_rate之后是（@TODO)

技术分享

F(X) 对应叶子节点中一个样本对应它的feature X 当前的预测值

参考机器学习概率角度一书的16章

技术分享

? ?

我们的分裂目标从上面回归树基本算法中的希望逼近y 变成了逼近梯度值 r_im，

也就是说当前树是预测负梯度值的。

F_m(x) = F_m-1(x) + learning_rate*(当前树的预测值(也就是预测负梯度..)) //@TODO check

? ?

再对比下ng课件最简单的梯度下降针对regression的例子

技术分享

? ?

技术分享

? ?

我们采用的每颗树更新策略是针对F(x)的，而F(x)沿着梯度的方向的累加，目标是使得我们的

技术分享

误差函数达到最小。

GBDT的基本原理

标签：

原文地址：http://www.cnblogs.com/rocketfan/p/4321673.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行