码迷,mamicode.com
首页 > 编程语言 > 详细

python 机器学习之数据预处理

时间:2018-07-08 19:00:00      阅读:311      评论:0      收藏:0      [点我收藏+]

标签:特征   数据预处理   encode   put   process   等于   maxscale   方法   label   

#数据预处理方法,主要是处理数据的量纲和同趋势化问题。

import numpy as np

from sklearn import preprocessing

#零均值规范

data=np.random.rand(3,4)#随机生成3行4列的数据

data_standardized=preprocessing.scale(data)#对数据进行归一化处理,即每个数值减去均值除以方差 主要用于svm

#线性数据变换最大最小化处理

data_scaler=preprocessing.MinMaxScaler(feature_range=(0,1))#选定区间(0,1),原始数据-最小值/(最大值-最小值)

data_scaled=data_scaler.fit(data)

#数据标准化处理normalized

data_normalized=preprocessing.normalize(data,norm=‘l1‘)#减少人为增加特征,经过处理后数据贾总等于1

#特征二值化,

data_binarized=prepressing.Binarizer(threshold=0.5).transform(data)#以0.5为阈值,大于0.5为1,小于0.5为0

#label_encode对标签进行数值化

label_encode=preprocessing.LabelEncoder()

input_class=[‘audi‘,‘ford‘,‘audi‘,‘bmw‘,‘toyota‘,‘benz‘]

label_encode.fit(input_class)

for i ,item in enmerate(label_encode.class_):

    print(item,‘-->‘,i)

#onehotencode

 

python 机器学习之数据预处理

标签:特征   数据预处理   encode   put   process   等于   maxscale   方法   label   

原文地址:https://www.cnblogs.com/thechain/p/9280789.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!