首页 > 其他好文 > 详细

泰坦尼克Titanic乘客生存预测

时间：2020-06-05 15:10:48 阅读：82 评论：0 收藏：0 [点我收藏+]

标签：data 填充 data- 回归相关性 style 部分 mba bin

前言

目标：预测测试集中乘客是否会存活

此项目数据集分为2份数据集titanic_train.csv和titanic_test.csv

titanic_train.csv: 训练集，共计891条数据

titanic_test.csv: 测试集，共计418条数据

字段　　　　字段说明
PassengerId 乘客编号
Survived 　　存活情况（存活：1 ; 死亡：0）
Pclass 　　　客舱等级
Name 　　乘客姓名
Sex 　　　　性别
Age 　　　　年龄
SibSp 　　　同乘的兄弟姐妹/配偶数
Parch 　　　同乘的父母/小孩数
Ticket 　　　船票编号
Fare 　　船票价格
Cabin 　　　客舱号
Embarked 　登船港口

探索性数据分析

技术图片

‘Cabin‘列大部分值都是缺失值，删除该列，乘客的名字也先不予考虑，将其删除。

技术图片

‘Age‘缺失值用平均数填充，‘Embarked‘缺失值用众数填充。

技术图片

补充后的数据为：

技术图片

先看一下性别与获救率的关系，很显然女性得到了重点照顾。

技术图片

下面做Heatmap(热图)对各变量进行相关性分析。

首先，对性别‘Sex‘列和登船港口‘Embarked‘列进行字符处理，船票编号类别大，难以分析规律，故先不参与相关性分析。

技术图片

绘制Heatmap。

技术图片

技术图片

从图中可以得出：性别与是否获救相关性最强，女性更容易获救；其次是货舱等级以及票价与获救的高相关性，客舱越高级，船票越贵，越容易获救，可以说富人更容易获救。

其他信息为：一家人(父母子+配偶+兄弟姐妹)大概率一起坐船；越年长客舱越高级。

特征工程

删除特征：‘Name’ 和 ‘Cabin’（已完成）

合并特征：将‘SibSp’和‘Parch’合并为新特征‘Mates‘

技术图片

添加新特征：

对船票编号’Ticket‘进行分析，将其分为字母开头型和数值型，其中字母开头型按字母进行细分，数字型统一算作一类，并对各类别数字编码。

技术图片

效果如下：

技术图片

模型选择

本文选用逻辑回归模型和随机森林模型。

逻辑回归模型：

特征工程前：

技术图片

技术图片

特征工程后：

技术图片

技术图片

随机森林模型:

特征工程前：

技术图片

技术图片

特征工程后：

技术图片

泰坦尼克Titanic乘客生存预测

标签：data 填充 data- 回归相关性 style 部分 mba bin

原文地址：https://www.cnblogs.com/LangB/p/13049428.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！