1、csv简介 CSV (Comma Separated Values),即逗号分隔值(也称字符分隔值,因为分隔符可以不是逗号),是一种常用的文本 格式,用以存储表格数据,包括数字或者字符。很多程序在处理数据时都会碰到csv这种格式的文件,它的使用是比 较广泛的(Kaggle上一些题目提供的数据就是 ...
分类:
编程语言 时间:
2017-12-12 10:29:30
阅读次数:
368
https://mp.weixin.qq.com/s/JwRXBNmXBaQM2GK6BDRqMw 选自GitHub 作者:Artur Suilin 机器之心编译 参与:蒋思源、路雪、黄小天 近日,Artur Suilin 等人发布了 Kaggle 网站流量时序预测竞赛第一名的详细解决方案。他们不仅 ...
分类:
Web程序 时间:
2017-12-06 10:30:37
阅读次数:
1549
根据以上两篇的分析,下面我们还要对数据进行处理,观察Age和Fare两个属性,乘客的数值变化幅度较大!根据逻辑回归和梯度下降的了解,如果属性值之间scale差距较大,将对收敛速度造成较大影响,甚至不收敛!因此,我们需要运用scikit-learn里面的preprocessing模块对Age和Fare ...
分类:
其他好文 时间:
2017-12-05 11:49:53
阅读次数:
137
Jeremy Howard 在业界可谓大名鼎鼎。他是大数据竞赛平台 Kaggle 的前主席和首席科学家。他本人还是 Kaggle 的冠军选手。他是美国奇点大学(Singularity University)最年轻的教职工。曾于 2014 年,作为全球青年领袖,在达沃斯论坛上发表主题演讲。他在 TED ...
分类:
其他好文 时间:
2017-11-21 17:05:26
阅读次数:
186
下面我们再来看看各种舱级别情况下各性别的获救情况 得到下图 下面再看看大家族对结果有什么影响 PassengerId SibSp Survived 0 0 398 1 210 1 0 97 1 112 2 0 15 1 13 3 0 12 1 4 4 0 15 1 3 5 0 5 8 0 7 Pas ...
分类:
其他好文 时间:
2017-11-20 17:47:20
阅读次数:
160
从Kaggle上获取的这份数据集,是从超过15000个专业的数据科学家收集的数据,让我们对他们的偏好、工作、学习资源和技术水平有了一个非常好的了解。 以下的分析中,简单的从几个方面对数据科学家的现状进行分析。 我们有超过16716人的数据。由于问题的数量实在是太大了(总共超过300个),所以指望人们 ...
分类:
其他好文 时间:
2017-11-13 21:39:25
阅读次数:
222
大家都熟悉的『Jack and Rose』的故事,豪华游艇倒了,大家都惊恐逃生,可是救生艇的数量有限,无法人人都有,副船长发话了『lady and kid first!』,所以是否获救其实并非随机,而是基于一些背景有rank先后的。 训练和测试数据是一些乘客的个人信息以及存活状况,要尝试根据它生成合 ...
分类:
其他好文 时间:
2017-11-10 20:36:32
阅读次数:
302
xgboost是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包,比常见的工具包快10倍以上。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可 ...
分类:
编程语言 时间:
2017-11-01 16:33:49
阅读次数:
370
最近同事讨论到mae无法作为objective function的事情,因为mae无法求导。用mse作为objective,使用mae作为eval是通常的做法,但是优化不太好。就在网上找了些资料,看是否有好的objective来代替mae的,整理如下: kaggle上的讨论 https://www. ...
分类:
其他好文 时间:
2017-11-01 13:35:24
阅读次数:
163
kaggle-titantic, from: https://www.youtube.com/watch?v=siEPqQsPLKA install matplotlib: conda install matplotlib install scikit-learn: conda install sc ...
分类:
编程语言 时间:
2017-10-28 20:32:52
阅读次数:
265