GBDT的基本原理

时间：2015-03-09 22:17:55 阅读：1493 评论：0 收藏：0 [点我收藏+]

标签：

这里以二元分类为例子，给出最基本原理的解释

? ?

GBDT 是多棵树的输出预测值的累加

GBDT的树都是回归树而不是分类树

? ?

分类树

技术分享

? ?

分裂的时候选取使得误差下降最多的分裂

技术分享

计算的技巧

技术分享

最终分裂收益按照下面的方式计算，注意圆圈内的部分是固定值

技术分享

GBDT 二分类

GBDT在实现中可以完全复用上面的计算方法框架，只是我们的优化的目标函数不同。

这里使用的是指数误差函数，不管是预测正确还是错误误差值都存在，但是正确的预测会使得误差值小于错误的预测参考

AdaBoost and the Super Bowl of Classi?ers

A Tutorial Introduction to Adaptive Boosting

技术分享

关于常用误差函数参考 http://www.cnblogs.com/rocketfan/p/4083821.html

? ?

参考 Greedy Functon Approximation:A Gradient Boosting Machine

4.4节关于二分类情况误差函数的设计

技术分享

这里其实和上面给出的一样，只是增加了 log(1 +, 另外多了一个2,2yF)

技术分享

? ?

这个F值其实就是逻辑回归的思路，类似?语音语言处理一书27页解释，线性加权的值（output)用来预测?p(true)和p(false)的比例的log值（回归值是实数范围取值不适合预测0-1，做了一个转换)，越是接近true，那么F(x)越接近+无穷(对应最大可能性判断true)，?p(false)越大?那么越接近-无穷(对应最大可能性判断false)