码迷,mamicode.com
首页 > 编程语言 > 详细

python数据预处理和特性选择后列的映射

时间:2018-12-15 14:55:31      阅读:266      评论:0      收藏:0      [点我收藏+]

标签:二值化   dice   选择   for   特征选择   size   特性   sel   属性   

我们在用python进行机器学习建模时,首先需要对数据进行预处理然后进行特征工程,在这些过程中,数据的格式可能会发生变化,前几天我遇到过的问题就是:

    对数据进行标准化、归一化、方差过滤的时候数据都从DataFrame格式变为了array格式

这样数据的列名就会消失,且进行特征选择之后列的数量也会发生改变,因此需要重新对列进行映射,为其加上列名并转化为DataFrame的格式。一般情况下可以分为三种情况:

1、对数据进行缺失值填补、编码(处理分类型变量)、二值化(处理连续型变量)一般都是按照列对数据进行处理,因此处理完之后,直接覆盖原数据即可。    

data.loc[:,"Age"]= SimpleImputer(strategy="median").fit_transform(data.loc[:,"Age"].values.reshape(-1,1))

2、对数据进行标准化、归一化都是对整个特征矩阵进行处理,数据类型变为array,但是数据的列并没有发生任何改变。直接将原始的列名重新映射至处理好的数据上。

X_train1 = min_max_scaler.fit_transform(X_train)  
X_train1=pd.DataFrame(X_train1)
X_train1.columns = X_train.columns

3、在所有特征选择方法,方差,SelectKBest+各种统计量(卡方过滤、F检验、互信息法),嵌入法和包装法,都有接口get_support,该接口有属性get_support(indices=False),参数为false的时候可以用来确定原特征矩阵中有哪些特征被选择出来,返回布尔值True或者False,如果设定indices=True,就可以确定被选择出来的特征在原特征矩阵中所在的位置的索引。

python数据预处理和特性选择后列的映射

标签:二值化   dice   选择   for   特征选择   size   特性   sel   属性   

原文地址:https://www.cnblogs.com/simpleDi/p/10123322.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!