用Anaconda的spyder:新建train_test.py 结果: 在这个数据集中,由于数据分布的团簇性较好(如果对这个数据库了解的话,看它的t-SNE映射图就可以看出来。由于任务简单,其在deep learning界已被认为是toy dataset),因此KNN的效果不赖。GBDT是个非常不 ...
分类:
编程语言 时间:
2016-04-06 21:32:00
阅读次数:
373
GBDT(Gradient Boosting Decision Tree)算法参考:http://blog.csdn.net/dark_scope/article/details/24863289 理解机器学习算法:http://blog.csdn.net/dark_scope/article/de
分类:
编程语言 时间:
2016-02-22 22:13:11
阅读次数:
1433
http://www.cbdio.com/BigData/2015-08/27/content_3750170.htm 1、背景 CTR预估,广告点击率(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模
分类:
其他好文 时间:
2016-01-28 17:16:28
阅读次数:
182
原文:http://blog.csdn.net/w28971023/article/details/8240756#0-tsina-1-51337-397232819ff9a47a7b7e80a40613cfe1在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(...
分类:
其他好文 时间:
2015-12-13 18:41:09
阅读次数:
235
原文:http://m.blog.csdn.net/blog/lilyth_lilyth/480321191、 背景 CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logis.....
分类:
其他好文 时间:
2015-12-13 17:11:23
阅读次数:
206
http://www.cnblogs.com/joneswood/archive/2012/03/04/2379615.html1. 什么是Treelink Treelink是阿里集团内部的叫法,其学术上的名称是GBDT(Gradient Boosting Decision Tree,梯度提升决策树...
分类:
其他好文 时间:
2015-10-10 23:11:34
阅读次数:
530
天池微博大赛攻略进阶分享者:新浪微博互动预测大赛冠军紫净一.训练目标本次比赛制胜的最关键点就是搞清楚训练目标。如果使用XLAB或其它算法包上的已有算法,一般的大致思路是这样的:构造各种特征,使用GBDT,RF等分别预测每条微博的转发,评论与点赞数量,然后作为答案。但很遗憾,如果你预测的是连续值,XL...
分类:
其他好文 时间:
2015-09-08 15:23:25
阅读次数:
2104
谈完数据结构中的树(详情见参照之前博文《数据结构中各种树》),我们来谈一谈机器学习算法中的各种树形算法,包括ID3、C4.5、CART以及基于集成思想的树模型Random Forest和GBDT。本文对各类树形算法的基本思想进行了简单的介绍,重点谈一谈被称为是算法中的“战斗机”,机器学习中的“屠.....
分类:
系统相关 时间:
2015-08-16 18:06:31
阅读次数:
524
GBDT之前实习的时候就听说应用很广,现在终于有机会系统的了解一下。首先对比上节课讲的Random Forest模型,引出AdaBoost-DTree(D)AdaBoost-DTree可以类比AdaBoost-Stump模型,就可以直观理解了1)每轮都给调整sample的权重2)获得gt(D,ut)...
分类:
其他好文 时间:
2015-08-06 00:21:40
阅读次数:
317
1、优化模型的两种策略:1)基于残差的方法 残差其实就是真实值和预测值之间的差值,在学习的过程中,首先学习一颗回归树,然后将“真实值-预测值”得到残差,再把残差作为一个学习目标,学习下一棵回归树,依次类推,直到残差小于某个接近0的阀值或回归树数目达到某一阀值。其核心思想是每轮通过拟合残差来降低损失....
分类:
编程语言 时间:
2015-08-01 17:07:36
阅读次数:
4624