数据科学:R & Python 工作 & Kaggle机器学习比赛 可重复函数式编程 一、Python模块的载入 包 Package 模块 module 二、R语言包的载入 install必须加双引号,library可以不加。 pacman包可以一次性加载多个包。 p_load函数可以一次性加载多个 ...
分类:
编程语言 时间:
2018-11-02 01:47:00
阅读次数:
199
我写这篇文章的目的,是为参加数据科学社区Kaggle简单指引。 大多数初学者无从下手,因为他们使用自己不理解的库和算法,就像陷入黑盒。 本教程将通过提供一个框架来教您如何像数据科学家一样思考与编码,从而为您提供数据分析的领域优势。 目录: 一 、引言:数据科学家如何打败赔率 二 、 数据科学框架综述 ...
分类:
其他好文 时间:
2018-11-01 17:00:05
阅读次数:
376
数据源获取: https://www.kaggle.com/datasets 1、 ...
分类:
其他好文 时间:
2018-11-01 00:50:44
阅读次数:
155
这是我自己开始从完全不会的小白进入kaggle学习的一些记录。 最近课程很多很忙,但是就是觉得自己应该做些这样的事情。 目前自己的基础差不多就是小白,没有过任何这样的经验,电脑上连python都没有。 从零开始。 今天先开始入门吧。找了很多教程 有些说的比较宽泛,有些太细节。 但是不自己动手是没有收 ...
分类:
其他好文 时间:
2018-10-25 00:29:32
阅读次数:
132
主要围绕Kaggle上的比赛题目: "给出泰坦尼克号上的乘客的信息, 预测乘客是否幸存" 进行一个简单的数据分析 环境 win8, python3.7, jupyter notebook 正文 1. 项目背景 泰坦尼克号: 是当时世界上体积最庞大、内部设施最豪华的客运轮船, 于1909年3月31日动 ...
分类:
编程语言 时间:
2018-10-24 20:13:24
阅读次数:
196
如何在kaggle平台使用官方提供的api下载数据? 1. 首先在kaggle个人资料处生成秘钥(点击头像,再点击My Account进入) 然后会自动下载一个名为 kaggle.json 的文件。 2. 把该文件kaggle.json复制到/home/xx/.kaggle下。 3. 使用提供的ap ...
如果说线性回归算法像丰田凯美瑞的话,那么梯度提升(GB)方法就像是UH-60黑鹰直升机。XGBoost算法作为GB的一个实现是Kaggle机器学习比赛的常胜将军。不幸的是,很多从业者都只把这个算法当作黑盒使用(包括曾经的我)。这篇文章的目的就是直观而全面的介绍经典梯度提升方法的原理。 原理说明 我们 ...
分类:
其他好文 时间:
2018-10-21 01:03:41
阅读次数:
505
做完 Kaggle 比赛已经快五个月了,今天来总结一下,为秋招做个准备。 题目要求:根据主办方提供的超过 4 天约 2 亿次的点击数据,建立预测模型预测用户是否会在点击移动应用广告后下载应用程序。 数据集特点: 不平衡数据集的处理思路: 一般对样本进行 上采样 和 下采样,顾名思义就是 多的样本少采 ...
分类:
其他好文 时间:
2018-10-14 13:58:18
阅读次数:
340
https://blog.csdn.net/bitcs_zt/article/details/79256688 该项比赛1月15日就已经结赛了,但由于之后进入期末,备考花费了大量的时间,没来得及整理相关内容。现在终于有时间好好回顾比赛,并对这次比赛的过程进行记录。 Corporación Favor ...
分类:
其他好文 时间:
2018-09-26 14:56:00
阅读次数:
182
https://www.leiphone.com/news/201803/fPnpTdrkvUHf7uAj.html 雷锋网 AI 研习社消息,Kaggle 上 Corporación Favorita 主办的商品销量预测比赛于两个月前落下帷幕,此次比赛的奖金池共计三万美元,吸引到 1675 支队伍 ...
分类:
其他好文 时间:
2018-09-25 20:40:13
阅读次数:
235