码迷,mamicode.com
首页 > 其他好文 > 详细

特征处理

时间:2021-01-14 11:08:01      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:计算机性能   com   wrapper   sel   预测   lazy   结果   hot   技术   

  通过特定的统计方法(数学方法)将数据转换成算法要求的数据

  数值行数据:标准缩放:

        1.归一化

        2.标准化

  类别型数据:one-hot编码

  时间类型:时间的切分

 

       sklearn特征处理API:

           sklearn.preprocessing

        

  归一化:

    特点:通过对原始数据进行变化把数据映射到(默认为【0,1】)之间

     公式:X‘ = (x-mim)/max-min      X‘‘ = X‘*(mx-mi)+ mi

     注:作用与每一列,max为一列的最大值,min为一列的最小值,那么X‘‘为最终结果,mx,mi分别为指定区间值默认mx为1,mi为0 

 

技术图片

 

 

 

 

特征选择原因:

  冗余:部分特征的相关度高,容易消耗计算机性能。

  噪声:部分特征对预测结果有影响。

 

特征选择是什么:

  特征选择就是单纯低从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值,也不该兰芝,但是选择后的特征维数肯定比选择前小,毕竟我盟只选择了其中的一部分特征。

  主要方法(三个):filter(过滤式):VarianceThreshold; Embedded(嵌入式):正则化,决策树;Wrapper(包裹式)

 

特征选择API:

  sklearn.feature_selection.VarianceThreshold

54

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  

 

特征处理

标签:计算机性能   com   wrapper   sel   预测   lazy   结果   hot   技术   

原文地址:https://www.cnblogs.com/superSmall/p/14273261.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!