详解 Kaggle 房价预测竞赛优胜方案:用 Python 进行全面数据探索 方法框架: 理解问题:查看每个变量并且根据他们的意义和对问题的重要性进行哲学分析。 单因素研究:只关注因变量( SalePrice),并且进行更深入的了解。 多因素研究:分析因变量和自变量之间的关系。 基础清洗:清洗数据集 ...
分类:
其他好文 时间:
2018-06-25 16:49:40
阅读次数:
336
1、Bike Sharing Demand kaggle: https://www.kaggle.com/c/bike-sharing-demand 目的:根据日期、时间、天气、温度等特征,预测自行车的租借量 处理:1、将日期(含年月日时分秒)提取出年,月, 星期几,以及小时 2、season, w ...
分类:
其他好文 时间:
2018-06-19 11:56:25
阅读次数:
192
Python csv模块的使用 1、csv简介 CSV (Comma Separated Values),即逗号分隔值(也称字符分隔值,因为分隔符可以不是逗号),是一种常用的文本 格式,用以存储表格数据,包括数字或者字符。很多程序在处理数据时都会碰到csv这种格式的文件,它的使用是比 较广泛的(Ka ...
分类:
其他好文 时间:
2018-06-18 01:17:07
阅读次数:
1487
一、前述 在 Kaggle 的很多比赛中,我们可以看到很多 winner 喜欢用 xgboost,而且获得非常好的表现,今天就来看看 xgboost 到底是什么以及如何应用。Gradient boosting 是 boosting 的其中一种方法,所谓 Boosting ,就是将弱分离器 f_i(x ...
分类:
其他好文 时间:
2018-06-14 11:39:02
阅读次数:
172
本次使用了tensorflow高级API在规范化网络编程做出了尝试。 第一步:准备好需要的库 tensorflow-gpu 1.8.0 opencv-python 3.3.1 numpy ubantu 16.4 第二步:准备数据集: https://www.kaggle.com/c/dogs-vs- ...
分类:
编程语言 时间:
2018-06-06 15:41:51
阅读次数:
424
该博主总结的很好,https://www.cnblogs.com/hellcat/p/7531789.html 1、kaggle给出的导图 2、转化成树图: 3、sklearn工具导图 ...
分类:
其他好文 时间:
2018-06-04 21:34:43
阅读次数:
241
本身是个美剧迷,其中权力的游戏是我最爱的美剧之一,所以我通过kaggle下载了数据集并进行分析。数据名称解释如下: 首先我们先提出问题: 1.每个国王攻击方式 2.每年死亡或被俘的重要人物 3.每个区域死亡或被俘的重要人物人数 4.战争结果是否与兵力多少有关系 1 导入包 1 收集数据 1.1 查看 ...
分类:
编程语言 时间:
2018-05-30 19:22:12
阅读次数:
488
解压文件命令: 拷贝文件命令: 整理数据 我们有两个文件夹'../data/kaggle_cifar10/train'和'../data/kaggle_cifar10/test',一个记录了文件名和类别的索引文件 我们的目的是在新的文件夹下形成拷贝,包含三个文件夹train_valid、train、 ...
分类:
Web程序 时间:
2018-05-28 00:51:15
阅读次数:
380
先看数据: 特征如下: Time Number of seconds elapsed between each transaction (over two days) numeric V1 No description provided numeric V2 No description provi ...
分类:
其他好文 时间:
2018-05-25 14:01:19
阅读次数:
4119
最近一直断断续续的做这个泰坦尼克生存预测模型的练习,这个kaggle的竞赛题,网上有很多人都分享过,而且都很成熟,也有些写的非常详细,我主要是在牛人们的基础上,按照数据挖掘流程梳理思路,然后通过练习每一步来熟悉应用python进行数据挖掘的方式。 数据挖掘的一般过程是:数据预览——>数据预处理(缺失 ...
分类:
编程语言 时间:
2018-05-25 01:42:25
阅读次数:
300