码迷,mamicode.com
首页 > 其他好文 > 详细

kaggle数据挖掘竞赛初步--Titanic<原始数据分析>

时间:2015-03-20 14:21:49      阅读:220      评论:0      收藏:0      [点我收藏+]

标签:

Titanic是kaggle上的一道just for fun的题,没有奖金,但是数据整洁,拿来练手最好不过啦。

这道题给的数据是泰坦尼克号上的乘客的信息,预测乘客是否幸存。这是个二元分类的机器学习问题,但是由于数据样本相对较少,在当时慌乱的情况下幸存者有一定的随机性,还是有一定挑战的。

首先,我们要先看一看数据,分析数据的一些较为直观的特征。代码使用numpy pandas和scikit-learn。

1 import numpy as np
2 import pandas as pd
3 #read data from train.csv
4 df = pd.read_csv(train.csv,header=0)
5 df.info()
6 df.describe()

 

kaggle数据挖掘竞赛初步--Titanic<原始数据分析>

标签:

原文地址:http://www.cnblogs.com/north-north/p/4353365.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!