代码全部从Kaggle整理过来,仅做了一点点修改: 我在源码的基础上加了交叉验证提高了一点点分数。。。 ...
分类:
其他好文 时间:
2018-04-28 16:51:56
阅读次数:
197
假期闲着无聊,做了一下Kaggle练手的项目--预测泰坦尼克号乘客的存活情况。对于一些函数和算法,刚开始也是懵懵懂懂的,但通过自己查资料,还是明白了许多,我会把参考资料的网址放在需要查看的地方。 我们的整个流程如下: ①数据预处理:数据清洗、可视化、标签化 ②分割训练数据 ③随机森林分类器及其参数调 ...
分类:
其他好文 时间:
2018-04-07 11:15:37
阅读次数:
1775
泰坦尼克船员获救数据: titanic_train.csv 用excel打开数据集。显示如下: 写在前边: 为了方便以后运用numpy和pandas的库,分别造它们的别名np和pd. 一、读取数据 运行结果: 二、对数据进行处理 1. 用 .isnull()来处理数据的缺失值 其实数据都有缺失值,在 ...
分类:
编程语言 时间:
2018-04-07 01:14:23
阅读次数:
911
按照我们对于变量的分类:分为数值变量和分类变量,数值变量可以分为连续型和离散型,分类变量又有有序的和无序的。下面我将介绍一些对于这些变量进行离散化处理。 无序分类变量的离散化方法: 比如在泰坦尼克号当中,有一个变量叫做乘客登陆的港口,取值为(C, Q, S)代表三个地方。这是一个典型的无序分类变量, ...
分类:
其他好文 时间:
2018-03-15 22:14:14
阅读次数:
292
肖申克的救赎霸王别姬这个杀手不太冷阿甘正传美丽人生千与千寻泰坦尼克号辛德勒的名单盗梦空间机器人总动员海上钢琴师三傻大闹宝莱坞忠犬八公的故事放牛班的春天大话西游之大圣娶亲教父龙猫楚门的世界熔炉乱世佳人星际穿越触不可及无间道当幸福来敲门天堂电影院 ...
分类:
其他好文 时间:
2018-03-08 02:43:16
阅读次数:
161
数据集下载地址: https://github.com/fayduan/Kaggle_Titanic/blob/master/train.csv 视频地址: http://study.163.com/course/courseLearn.htm?courseId=1003551009#/learn/ ...
分类:
编程语言 时间:
2018-03-04 21:24:41
阅读次数:
602
原文地址如下: https://www.kaggle.com/startupsci/titanic-data-science-solutions 看完一遍,什么也没记住,于是干脆直接翻译一遍。 然鹅,依旧没记住什么。 泰坦尼克数据科学解决方案: 1. 工作流程步骤: 在 Data Science S ...
分类:
其他好文 时间:
2018-01-03 22:34:38
阅读次数:
1214
分享一篇kaggle入门级案例,泰坦尼克号幸存遇难分析。 参考文章: 技术世界,原文链接 http://www.jasongj.com/ml/classification/ 案例分析内容: 案例分析内容: 通过训练集分析预测什么人可能生还,并对测试集中乘客做出预测判断 案例分析 加载包 1 libr ...
分类:
其他好文 时间:
2017-12-23 23:13:31
阅读次数:
547
根据以上两篇的分析,下面我们还要对数据进行处理,观察Age和Fare两个属性,乘客的数值变化幅度较大!根据逻辑回归和梯度下降的了解,如果属性值之间scale差距较大,将对收敛速度造成较大影响,甚至不收敛!因此,我们需要运用scikit-learn里面的preprocessing模块对Age和Fare ...
分类:
其他好文 时间:
2017-12-05 11:49:53
阅读次数:
137
1、pandas简介 Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据 ...
分类:
编程语言 时间:
2017-11-26 15:05:13
阅读次数:
224