标签:
Titanic是kaggle上的一道just for fun的题,没有奖金,但是数据整洁,拿来练手最好不过啦。
这道题给的数据是泰坦尼克号上的乘客的信息,预测乘客是否幸存。这是个二元分类的机器学习问题,但是由于数据样本相对较少,在当时慌乱的情况下幸存者有一定的随机性,还是有一定挑战的。
首先,我们要先看一看数据,分析数据的一些较为直观的特征。代码使用numpy pandas和scikit-learn。
1 import numpy as np 2 import pandas as pd 3 #read data from train.csv 4 df = pd.read_csv(‘train.csv‘,header=0) 5 df.info() 6 df.describe()
kaggle数据挖掘竞赛初步--Titanic<原始数据分析>
标签:
原文地址:http://www.cnblogs.com/north-north/p/4353365.html