Titanic是kaggle上一个练手的比赛,kaggle平台提供一部分人的特征,以及是否遇难,目的是预测另一部分人是否遇难。目前抽工作之余,断断续续弄了点,成绩为0.79426。在这个比赛过程中,接触并了解了一些数据挖掘比赛的基本流程,现记录一下。 1. 分析数据 因为数据量比较小,train有8 ...
分类:
其他好文 时间:
2017-05-30 18:06:23
阅读次数:
252
1. Display Advertising Challenge 目测是关于广告CTR预估的。 。新实习看起来是做广告的,恶补一个。 2. Quora Question Pairs 美丽的小姐姐给我推荐的比赛,判断两个quora上的问题是否是一样的。一颗赛艇。 ...
分类:
其他好文 时间:
2017-05-29 22:53:27
阅读次数:
214
package kaggle import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.sql.{SQLContext, SparkSession} import or... ...
分类:
其他好文 时间:
2017-05-26 16:38:01
阅读次数:
274
转载一篇文章 如何在 Kaggle 首战中进入前 10% Posted on 2016-04-29 | In Data Science | Introduction 本文采用署名 - 非商业性使用 - 禁止演绎 3.0 中国大陆许可协议进行许可。著作权由章凌豪所有。 Kaggle 是目前最大的 Da ...
分类:
其他好文 时间:
2017-05-25 18:58:58
阅读次数:
354
本文结构:
- kaggle 是什么
- 如何参赛
- 解决问题一般步骤
- 进一步:
- 如何探索数据
- 如何构造特征
- 提交结果kaggle 是什么?Kaggle...
分类:
其他好文 时间:
2017-05-19 12:58:44
阅读次数:
411
1.Kaggle 基本介绍 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。在 Kaggle 上,企业或者研究机构发布商业和科研难题,悬赏吸引全球的数据科学家,通过众包的方式解决建模问题。而参赛者可以接触到丰富的真实数据,解决实际问题,角 ...
分类:
其他好文 时间:
2017-05-14 18:08:56
阅读次数:
237
Kaggle—So Easy!百行代码实现排名Top 5%的图像分类比赛作者:七月在线彭老师责编:翟惠良 JulyGithub: https://github.com/pengpaiSH/Kaggle...
分类:
其他好文 时间:
2017-05-11 13:31:19
阅读次数:
4268
机器学习的算法中,讨论的最多的是某种特定的算法,比如Decision Tree,KNN等,在实际工作以及kaggle竞赛中,Ensemble methods(组合方法)的效果往往是最好的,当然需要消耗的训练时间也会拉长。 所谓Ensemble methods,就是把几种机器学习的算法组合到一起,或者 ...
分类:
其他好文 时间:
2017-05-09 01:01:50
阅读次数:
344
xgboost的全称是eXtreme Gradient Boosting,现在已经风靡Kaggle、天池、DataCastle、Kesci等国内外数据竞赛平台,是比赛夺冠的必备大杀器!如果把数据竞赛比作金庸笔下的武林,那么XGBoost可谓屠龙刀,号令天下,莫敢不从! 于是,在学习了机器学习知识良久 ...
1.数据城堡 -- 猜你喜欢 2.数据城堡 -- 微额借款用户人品预测大赛 3.阿里天池 -- 需求预测与分仓规划 4.kaggle -- 14年CTR预测(GBDT+LR/FM) 5.魔镜 -- 风控 ...
分类:
其他好文 时间:
2017-04-23 12:36:32
阅读次数:
259