码迷,mamicode.com
首页 > 其他好文 > 详细

泰坦尼克Titanic乘客生存预测

时间:2020-06-05 15:10:48      阅读:82      评论:0      收藏:0      [点我收藏+]

标签:data   填充   data-   回归   相关性   style   部分   mba   bin   

前言

目标:预测测试集中乘客是否会存活

此项目数据集分为2份数据集titanic_train.csv和titanic_test.csv

titanic_train.csv: 训练集,共计891条数据

titanic_test.csv: 测试集,共计418条数据

字段     字段说明
PassengerId  乘客编号
Survived   存活情况(存活:1 ; 死亡:0)
Pclass    客舱等级
Name        乘客姓名
Sex      性别
Age      年龄
SibSp     同乘的兄弟姐妹/配偶数
Parch     同乘的父母/小孩数
Ticket     船票编号
Fare          船票价格
Cabin     客舱号
Embarked   登船港口

探索性数据分析

技术图片

 技术图片

 

 ‘Cabin‘列大部分值都是缺失值,删除该列,乘客的名字也先不予考虑,将其删除。

技术图片

 

 ‘Age‘缺失值用平均数填充,‘Embarked‘缺失值用众数填充。

技术图片

 

 补充后的数据为:

技术图片

 

 先看一下性别与获救率的关系,很显然女性得到了重点照顾。

技术图片

下面做Heatmap(热图)对各变量进行相关性分析。 

首先,对性别‘Sex‘列和登船港口‘Embarked‘列进行字符处理,船票编号类别大,难以分析规律,故先不参与相关性分析。

 技术图片

 

 绘制Heatmap。

技术图片

 

 技术图片

 

 从图中可以得出:性别与是否获救相关性最强,女性更容易获救;其次是货舱等级以及票价与获救的高相关性,客舱越高级,船票越贵,越容易获救,可以说富人更容易获救。

其他信息为:一家人(父母子+配偶+兄弟姐妹)大概率一起坐船;越年长客舱越高级。

 

特征工程

 删除特征:‘Name’ 和  ‘Cabin’(已完成)

合并特征:将‘SibSp’和‘Parch’合并 为新特征‘Mates‘

技术图片

添加新特征:

对船票编号’Ticket‘进行分析,将其分为字母开头型和数值型,其中字母开头型按字母进行细分,数字型统一算作一类,并对各类别数字编码。

技术图片

 

 

 效果如下:

技术图片

 

 

 

 模型选择

 本文选用逻辑回归模型和随机森林模型。

逻辑回归模型:

特征工程前:

技术图片

 

 

 技术图片

 

 

 特征工程后:

技术图片

 

 

 技术图片

 

 

 随机森林模型:

特征工程前:

技术图片

 

 

 技术图片

 

 

 特征工程后:

技术图片

 

 

 

 

 

 

 

 

 

 

 

 

泰坦尼克Titanic乘客生存预测

标签:data   填充   data-   回归   相关性   style   部分   mba   bin   

原文地址:https://www.cnblogs.com/LangB/p/13049428.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!