码迷,mamicode.com
首页 > 其他好文 > 详细

常用的特征处理方法

时间:2018-06-14 23:15:59      阅读:250      评论:0      收藏:0      [点我收藏+]

标签:归一化   需要   for   去除   影响   sqrt   log   转化   均值   

对于机器学习模型,我们把他们分成基于树的模型和非基于树的模型,因为在处理他们的特征需要不同的方法。

1.数值型特征

如果一个特征的值特别大的话,那么会使得其在非树模型上占有很大的比例,所以我们通常对其做归一化处理。
Outliers:不管是对特征还是标签,异常数据对模型的鲁棒性都会带来较大的打击,所以常用取数据的99%来去除异常数据。
rank:在处理outlier的时候可以把数值型转化成rank排序特征,这样异常值和普通值之间的差距就不会那么大,在排序时要注意训练集与测试集之间的rank连接(对此,可以先把train和test连在一起再做rank排序)。
log transform和sqrt:这两种方法都可以把太大的值转化到均值附近,降低异常值带来的影响。

常用的特征处理方法

标签:归一化   需要   for   去除   影响   sqrt   log   转化   均值   

原文地址:https://www.cnblogs.com/whig/p/9185355.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!