python有关数据预处理的库

时间：2020-07-30 14:23:29 阅读：72 评论：0 收藏：0 [点我收藏+]

1、sklearn.preprocessing

数据预处理StandardScaler：如果某个特征的方差远大于其它特征的方差，那么它将会在算法学习中占据主导位置，导致我们的学习器不能像我们期望的那样，去学习其他的特征，这将导致最后的模型收敛速度慢甚至不收敛，因此我们需要对这样的特征数据进行标准化/归一化。

标准化数据通过减去均值然后除以方差（或标准差），这种数据标准化方法经过处理后数据符合标准正态分布，即均值为0，标准差为1，转化函数为：x =(x - ??)/??

data[‘Amount‘] = StandardScaler().fit_transform(data[‘Amount‘].values.reshape(-1,1))

如果fit_transform传入的数据只有一列需要加values.reshape(-1,1)

2、pandas

读csv文件，删除某一列的代码：

import pandas as pd
df=pd.read_csv(‘F:\\岁月安好\\creditcard.csv‘, header=None,low_memory=False)
d=df.drop([0],axis=1)
d.to_csv(‘F:\\岁月安好\\creditcard_without_time‘,header=False,index=False)

3、sklearn.model_selection 参考链接：https://www.cnblogs.com/qi-yuan-008/p/11997248.html

train_test_split是sklearn中用于划分数据集，即将原始数据集划分成测试集和训练集两部分的函数

   X_train,X_test,y_train,y_test = train_test_split(X,y,train_size = 0.75, random_state=14, stratify=y)

train_size：训练集大小

　　float：0-1之间，表示训练集所占的比例

　　int：直接指定训练集的数量

　　None：自动为测试集的补集，也就是原始数据集减去测试集

test_size：测试集大小，默认值是0.25

　　float：0-1之间，表示测试集所占的比例

　　int：直接指定测试集的数量

　　None：自动为训练集的补集，也就是原始数据集减去训练集

random_state：可以理解为随机数种子，主要是为了复现结果而设置

shuffle：表示是否打乱数据位置，True或者False，默认是True

stratify：表示是否按照样本比例（不同类别的比例）来划分数据集，例如原始数据集类A:类B = 75%:25%，那么划分的测试集和训练集中的A:B的比例都会是75%:25%；可用于样本类别差异很大的情况，一般使用为：stratify=y，即用数据集的标签y来进行划分。

4、imblearn.over_sampling

#SMOTE过采样

from imblearn.over_sampling import SMOTE, ADASYN

X_resampled, y_resampled = SMOTE().fit_resample(X, y)

print(sorted(Counter(y_resampled).items()))

SMOTE: 对于少数类样本a, 随机选择一个最近邻的样本b, 然后从a与b的连线上随机选取一个点c作为新的少数类样本;

5、matplotlib.pyplot

subplots创建多个子图 f, [ax1, ax2] = plt.subplots(2, 1, sharex=True, figsize=(14,6)) 子图的位置两行一列

plt.subplots()是一个函数，bai返回一个包含figure和axes对象的元组，因du此，使用fig,ax=plt.subplots()将元组分解为fig和ax两个变量

把父图分成2*2个子图，ax1便是第一个子图，ax2是第二个。

6、seaborn 参考博客：https://blog.csdn.net/qq_39949963/article/details/79362501

displot()集合了matplotlib的hist()与核函数估计kdeplot的功能，增加了rugplot分布观测条显示与利用scipy库fit拟合参数分布的新颖用途。

from scipy.stats import *
sns.distplot(x,hist=False,fit=norm) #拟合标准正态分布

通过hist和kde参数调节是否显示直方图及核密度估计(默认hist,kde均为True

import matplotlib.pyplot as plt
fig,axes=plt.subplots(1,3) #创建一个一行三列的画布
sns.distplot(x,ax=axes[0]) #左图
sns.distplot(x,hist=False,ax=axes[1]) #中图
sns.distplot(x,kde=False,ax=axes[2]) #右图

https://www.cnblogs.com/onemorepoint/p/8306885.html

热点图heatmap( ) sns.heatmap(fraud_data_new.drop(‘Class‘, 1).corr(), ax=ax1, vmin=-1, vmax=1)

vmin,vmax：用于指定图例中最小值与最大值的显示值

ax：用于指定子图的位置

python有关数据预处理的库

标签：pyplot 部分 min 自动 false sub href 变量选择

原文地址：https://www.cnblogs.com/0211ji/p/13401434.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行