XGBoost模型

时间：2016-04-29 15:50:16 阅读：204 评论：0 收藏：0 [点我收藏+]

标签：

1.模型

（1）整体模型函数如下：

技术分享

其中 k 表示树的数量，f 表示每棵树的预测函数；

（2）截取到第 t 棵树的模型函数表示如下：

技术分享

2.训练

（1）每次训练一棵树，目标函数如下：

技术分享

其中第一项是损失函数，第二项是防止过拟合；N表示样本数，T表示所有树的叶子数目，t 表示训练第 t 棵树，w 表示叶子的输出值；

（2）泰勒展开（二阶展开）：

技术分享

其中：

技术分享

由于L为常数项，所以：

技术分享

因此，该优化问题就是找出一颗树满足上述目标函数最小；

3.优化

（1）树的预测可以理解如下：1）将哪些样本分配到哪个叶子上；2）每个叶子的预测值；

（2）目标函数的改进：

技术分享

其中：

技术分享

表示第 i 个样本分配到第 j 个叶子上；

（3）为了优化上述式子，可以先求出w（二次求解）：

技术分享

因此目标函数可以化为：

技术分享

PS：xgboost与gbdt的改进：由一阶展开改为二阶，加入过拟合控制；

标签：

原文地址：http://blog.csdn.net/dream_catcher_10/article/details/51277138

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行