接触数据挖掘快有一年了,早期在学生团队做过一些D3数据可视化方面的工作,今年上半年开始数据挖掘实践。想把这个爱好发展成事业。有在kaggle混迹,算个数据新手,但一直不承认:你是新人,所以成绩不好看没啥关系。小试牛刀之前偶然的机会看到了datacastle大数据竞赛平台的“..
分类:
其他好文 时间:
2016-07-06 18:47:58
阅读次数:
5622
Kaggle 是目前最大的
Data Scientist 聚集地。很多公司会拿出自家的数据并提供奖金,在 Kaggle 上组织数据竞赛。我最近完成了第一次比赛,在 2125 个参赛队伍中排名第 98 位(~ 5%)。因为是第一次参赛,所以对这个成绩我已经很满意了。在 Kaggle 上一次比赛的结果除了排名以外,还会显示的就是 Prize Winner,10% 或是 25% 这三档。所以刚刚接触...
分类:
其他好文 时间:
2016-05-18 19:17:28
阅读次数:
272
最近在参加一个大数据竞赛,将R语言学习记录写在这里。 1.打开csv数据 2.数据筛选 3.描述性统计分析 ...
分类:
移动开发 时间:
2016-04-16 22:50:50
阅读次数:
166
阿里巴巴天池大数据竞赛黄金联赛全面开战,全球同步报名,只为寻找最聪明的你!天池大数据竞赛是由阿里巴巴集团主办,面向全球新生代力量的高端算法竞赛。通过开放海量数据和“天池”分布式计算平台,大赛让所有参与者有机会运用其设计的算法解决各类社会生活问题和商业世界中..
分类:
其他好文 时间:
2015-04-17 11:50:05
阅读次数:
146
竞赛介绍:链接这篇文章记录2015阿里天池大数据竞赛中,我的一些代码,由于目前还在比赛中,仅分享一个naive solution,基于规则,代码主页在我的github上:链接,下面是代码说明。有兴趣的请看代码注释,恕不详述。 本repo目录说明
data 存放数据
preprocess 数据预处理
rule 根据规则生成提交文件
model 训练机器学习模型(暂时不分享)
代码使用说...
分类:
其他好文 时间:
2015-04-14 08:32:52
阅读次数:
217
大数据竞赛平台——Kaggle 入门篇
这篇文章适合那些刚接触Kaggle、想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文。本文分为两部分介绍Kaggle,第一部分简单介绍Kaggle,第二部分将展示解决一个竞赛项目的全过程。如有错误,请指正!
1、Kaggle简介
Kaggle是一个数据分析的竞赛平台,网址:ht...
分类:
其他好文 时间:
2014-12-15 09:06:09
阅读次数:
642
最近阿里巴巴办了个数据挖掘竞赛-阿里巴巴大数据竞赛,题目是根据天猫用户4个月的行为记录来预测用户下一个月会买什么东西,参赛对象为高校在校学生。由于奖金数额十分巨大,因此比赛规模可以说是空前绝后的,短短2周就有4000多支队伍报名。比赛过程中,每队每周可以提交一次结果,组委会每周日统一计算各队的分数并...
分类:
其他好文 时间:
2014-11-12 20:56:38
阅读次数:
522
几天前2014阿里巴巴大数据竞赛刚刚落下帷幕,第11名的F1分数、准确率和召回率是6.10%、6.28%和5.93%。前10名的成绩还未公布,他们会被邀请到阿里巴巴公司来,有机会和内部团队一起参与双11。选手们闲下来,开始在群里爆特征、开玩笑、交换联系方式。 这次海内外共有7276支队报名。比赛分为...
分类:
其他好文 时间:
2014-11-12 19:40:44
阅读次数:
205
好早的时候就打算写这篇文章,但是还是参加阿里大数据竞赛的第一季三月份的时候实验就完成了,硬生生是拖到了十一假期,自己也是醉了。。。找工作不是很顺利,希望写点东西回顾一下知识,然后再攒点人品吧,只能如此了。
一、问题背景
二、基于用户的协同过滤算法介绍
三、数据结构和实验过程设计
四、代码...
分类:
编程语言 时间:
2014-10-03 21:50:45
阅读次数:
281
——谨将此文献给阿瑞(@Nyanko君一生懸命)和湛卢。阿瑞在MapReduce等方面提供的技术支持,使我们成为最早充分利用ODPS的团队之一;湛卢提出很多分析问题的新思路,让我们在走投无路的时候屡次重拾希望。0. 写在最前面这个系列的几篇文章,记录我们队对于问题的整个处理过程。分成两个部分:首先的...
分类:
其他好文 时间:
2014-08-10 23:51:01
阅读次数:
431