标签:www sdn gbdt adt offic 总数 问题 sed 直接
XGBoost算法可以给预测模型带来能力的提升。当我对它的表现有更多了解的时候,当我对它的高准确率背后的原理有更多了解的时候,我发现它具有很多优势:
XGBoost的作者把所有的参数分成了三类:
还有两个参数,XGBoost会自动设置,目前你不用管它。
4)num_feature [set automatically by xgboost, no need to be set by user]
boosting过程中用到的特征维数,设置为特征个数。XGBoost会自动设置,不需要手工设置。
尽管有两种booster可供选择,我这里只介绍tree booster,因为它的表现远远胜过linear booster,所以linear booster很少用到。
缺省值为0
(在L1上没有偏置项的正则,因为L1时偏置不重要)这个参数用来控制理想的优化目标和每一步结果的度量方法。
如果你比较习惯scikit-learn的参数形式,那么XGBoost的Python 版本也提供了sklearn形式的接口 XGBClassifier。
它使用sklearn形式的参数命名方式,对应关系如下:
1、eta -> learning_rate
2、lambda -> reg_lambda
3、alpha -> reg_alpha
The following parameters are only used in the console version of xgboost
* use_buffer [ default=1 ]
- 是否为输入创建二进制的缓存文件,缓存文件可以加速计算。缺省值为1
* num_round
- boosting迭代计算次数。
* data
- 输入数据的路径
* test:data
- 测试数据的路径
* save_period [default=0]
- 表示保存第i*save_period次迭代的模型。例如save_period=10表示每隔10迭代计算XGBoost将会保存中间结果,设置为0表示每次计算的模型都要保持。
* task [default=train] options: train, pred, eval, dump
- train:训练模型
- pred:对测试数据进行预测
- eval:通过eval[name]=filenam定义评价指标
- dump:将学习模型保存成文本格式
* model_in [default=NULL]
- 指向模型的路径在test, eval, dump都会用到,如果在training中定义XGBoost将会接着输入模型继续训练
* model_out [default=NULL]
- 训练完成后模型的保存路径,如果没有定义则会输出类似0003.model这样的结果,0003是第三次训练的模型结果。
* model_dir [default=models]
- 输出模型所保存的路径。
* fmap
- feature map, used for dump model
* name_dump [default=dump.txt]
- name of model dump file
* name_pred [default=pred.txt]
- 预测结果文件
* pred_margin [default=0]
- 输出预测的边界,而不是转换后的概率
你肯定在疑惑为啥咱们没有介绍和GBM中的n_estimators
类似的参数。XGBClassifier中确实有一个类似的参数,但是,是在标准XGBoost实现中调用拟合函数时,把它作为num_boosting_rounds
参数传入。
XGBoost Guide 的一些部分是我强烈推荐大家阅读的,通过它可以对代码和参数有一个更好的了解:
XGBoost Parameters (official guide)
XGBoost Demo Codes (xgboost GitHub repository)
Python API Reference (official guide)
我们从Data Hackathon 3.x AV版的hackathon中获得数据集,和GBM 介绍文章中是一样的。更多的细节可以参考competition page
数据集可以从这里下载。我已经对这些数据进行了一些处理:
City
变量,因为类别太多,所以删掉了一些类别。DOB
变量换算成年龄,并删除了一些数据。EMI_Loan_Submitted_Missing
变量。如果EMI_Loan_Submitted
变量的数据缺失,则这个参数的值为1。否则为0。删除了原先的EMI_Loan_Submitted
变量。EmployerName
变量,因为类别太多,所以删掉了一些类别。Existing_EMI
变量只有111个值缺失,所以缺失值补充为中位数0。Interest_Rate_Missing
变量。如果Interest_Rate
变量的数据缺失,则这个参数的值为1。否则为0。删除了原先的Interest_Rate
变量。Lead_Creation_Date
,从直觉上这个特征就对最终结果没什么帮助。Loan_Amount_Applied, Loan_Tenure_Applied
两个变量的缺项用中位数补足。Loan_Amount_Submitted_Missing
变量。如果Loan_Amount_Submitted
变量的数据缺失,则这个参数的值为1。否则为0。删除了原先的Loan_Amount_Submitted
变量。Loan_Tenure_Submitted_Missing
变量。如果 Loan_Tenure_Submitted
变量的数据缺失,则这个参数的值为1。否则为0。删除了原先的 Loan_Tenure_Submitted
变量。LoggedIn
, Salary_Account
两个变量Processing_Fee_Missing
变量。如果 Processing_Fee
变量的数据缺失,则这个参数的值为1。否则为0。删除了原先的 Processing_Fee
变量。Source
前两位不变,其它分成不同的类别。如果你有原始数据,可以从资源库里面下载data_preparation
的Ipython notebook
文件,然后自己过一遍这些步骤。
首先,import必要的库,然后加载数据。
注意我import了两种XGBoost:
在向下进行之前,我们先定义一个函数,它可以帮助我们建立XGBoost models 并进行交叉验证。好消息是你可以直接用下面的函数,以后再自己的models中也可以使用它。
这个函数和GBM中使用的有些许不同。注意xgboost的sklearn包没有“feature_importance”这个量度,但是get_fscore()函数有相同的功能。
我们会使用和GBM中相似的方法。需要进行如下步骤:
选择较高的学习速率(learning rate)。一般情况下,学习速率的值为0.1。但是,对于不同的问题,理想的学习速率有时候会在0.05到0.3之间波动。选择对应于此学习速率的理想决策树数量。XGBoost有一个很有用的函数“cv”,这个函数可以在每一次迭代中使用交叉验证,并返回理想的决策树数量。
对于给定的学习速率和决策树数量,进行决策树特定参数调优(max_depth, min_child_weight, gamma, subsample, colsample_bytree)。在确定一棵树的过程中,我们可以选择不同的参数,待会儿我会举例说明。
xgboost的正则化参数的调优。(lambda, alpha)。这些参数可以降低模型的复杂度,从而提高模型的表现。
降低学习速率,确定理想参数。
咱们一起详细地一步步进行这些操作。
为了确定boosting
参数,我们要先给其它参数一个初始值。咱们先按如下方法取值:
1、max_depth
= 5 :这个参数的取值最好在3-10之间。我选的起始值为5,但是你也可以选择其它的值。起始值在4-6之间都是不错的选择。
2、min_child_weight
= 1:在这里选了一个比较小的值,因为这是一个极不平衡的分类问题。因此,某些叶子节点下的值会比较小。
3、gamma
= 0: 起始值也可以选其它比较小的值,在0.1到0.2之间就可以。这个参数后继也是要调整的。
4、subsample, colsample_bytree
= 0.8: 这个是最常见的初始值了。典型值的范围在0.5-0.9之间。
5、scale_pos_weight
= 1: 这个值是因为类别十分不平衡。
注意哦,上面这些参数的值只是一个初始的估计值,后继需要调优。这里把学习速率就设成默认的0.1。然后用xgboost中的cv函数来确定最佳的决策树数量。前文中的函数可以完成这个工作。
简单调参方法: 首先调整max_depth ,通常max_depth 这个参数与其他参数关系不大,初始值设置为10,找到一个最好的误差值,然后就可以调整参数与这个误差值进行对比。比如调整到8,如果此时最好的误差变高了,那么下次就调整到12;如果调整到12,误差值比10 的低,那么下次可以尝试调整到15. 在找到了最优的max_depth之后,可以开始调整subsample,初始值设置为1,然后调整到0.8 如果误差值变高,下次就调整到0.9,如果还是变高,就保持为1.0 接着开始调整min_child_weight , 方法与上面同理 再接着调整colsample_bytree 经过上面的调整,已经得到了一组参数,这时调整eta 到0.05,然后让程序运行来得到一个最佳的num_round,(在 误差值开始上升趋势的时候为最佳 )
参考:https://blog.csdn.net/wzmsltw/article/details/50994481
https://blog.csdn.net/han_xiaoyang/article/details/52665396
标签:www sdn gbdt adt offic 总数 问题 sed 直接
原文地址:https://www.cnblogs.com/Allen-rg/p/9266605.html