Python数据标准化、归一化

时间：2020-03-31 20:35:40 阅读：87 评论：0 收藏：0 [点我收藏+]

标签：detail image maxscale core min tps 需要机器学习 class

在进行数据分析或者机器学习时，通常需要对数据进行预处理，其中主要的步骤就是数据标准化/归一化。

常用的数据标准化和归一化方法主要有：

1. 最大最小标准化

　　y=(x-min(x))/(max(x)-min(x))，x为一序列，即x={x1,x2,x3......}，max(x)为最大值，min(x)为最小值

2. z-score标准化

　　y=(x-mean(x))/std(x)，mean(x)指的是均值，std(x)指的是标准差，结果会形成均值为0，方差为1的序列

3. 直接归一化

　　y=x/sum(x)，sum(x)指的是x序列的和

其中，Python实现 z-score的方法如下：

import numpy as np
aa = np.array([2,3,9,6,8])
bb = np.array([5,6,3,7,9])
cc = np.array([aa, bb])
print(cc)

cc_mean = np.mean(cc, axis=0)  #axis=0,表示按列求均值 ——— 即第一维，每一列可看做一个维度或者特征
cc_std = np.std(cc, axis=0)
cc_zscore = (cc-cc_mean)/cc_std   #直接计算，对数组进行标准化，一定要注意维度

技术图片

同时，scikit-learn也集成了z-score标准化的方法：

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
#scaler.fit(cc)                               
#trans_data_2 = scaler.transform(cc)          
cc_zscore_sk = scaler.fit_transform(cc)  #与上面numpy的计算结果一致

Python实现最大最小标准化的代码也很简单：

cc_min_max = (cc-np.min(cc, axis=0))/(np.max(cc, axis=0)-np.min(cc, axis=0))

或者使用sklearn包：

from sklearn.preprocessing import MinMaxScaler
cc_min_max = MinMaxScaler().fit_transform(cc)

注：pandas同样可以类似实现。

参考：

https://www.jianshu.com/p/fa73a07cd750

https://blog.csdn.net/qq_38958113/article/details/98050932

Python数据标准化、归一化

标签：detail image maxscale core min tps 需要机器学习 class

原文地址：https://www.cnblogs.com/qi-yuan-008/p/12608006.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行