数据探索

时间：2020-02-20 22:10:48 阅读：52 评论：0 收藏：0 [点我收藏+]

一.查看特征数据类型,有没有文本型变量需要处理

train_data.info()

train_data.describe(include="all",percentiles=[0.5]).T.round(2)

二.查看缺失值数量或占比

三.查看标签分布

# 查看标签分布
df[‘label‘].value_counts()

# 查看标签占比是否比例,是否均衡
len(train_data[train_data[‘SeriousDlqin2yrs‘]==1])/len(train_data[train_data[‘SeriousDlqin2yrs‘]==0])

四.可视化

1.单变量作图

#直方图
train_data[‘age‘].plot.hist(bins=30)

#当直接昨天不好看不均衡时
income= train_data[‘MonthlyIncome‘]
income.loc[income<23343].plot.hist(bins=50);

2.多变量探索(x间的相关性)

一般相关系数<0.8不会考虑删除,相关系数>0.9,考虑删除或者降维

# 多变量探索 默认pearson相关系数
plt.figure(figsize=(10,8))
sns.heatmap(train_data.corr(),annot=True,linewidths=1)

五.去重

数据预处理前先去重

# 去重
train_data.drop_duplicates(inplace=True)
train_data.shape

数据探索

标签：style code == 查看昨天 drop nts plot 数据

原文地址：https://www.cnblogs.com/jing-yan/p/12337521.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行