标签:个数 nump learn 均值 most sha res pre media
首先查看数据形态:
data.shape
再查看数据类型和非空值的个数与比例
data.info()
使用SimpleImputer进行填补
from sklearn.impute import SimpleImputer as si
imp_mean=si()
默认是用均值进行填补,参数如下:
注意,numpy自带的fillna只能填补np.nan,而此处则可以指定空值的类型。比如
?
或N/A
当数据是连续型,一般用均值填补。数据是分类型,用众数填补。
比如当空值是?时,使用0填充:
imp_0=si(missing_values="?",strategy='constant', fill_value=0)
imp_0=imp_0.fit_transform(data_)
注意此处,data是如果是0维,则要先变为一维:
data_=data.列名.values.reshape(-1.1)
除了用均值,0,众数,中位数。还可用:算法、多重差补等。但是如用随机森林进行填补,解释性比较差。
标签:个数 nump learn 均值 most sha res pre media
原文地址:https://www.cnblogs.com/heenhui2016/p/10987948.html