常用的特征处理方法

时间：2018-06-14 23:15:59 阅读：250 评论：0 收藏：0 [点我收藏+]

对于机器学习模型，我们把他们分成基于树的模型和非基于树的模型，因为在处理他们的特征需要不同的方法。

1.数值型特征

如果一个特征的值特别大的话，那么会使得其在非树模型上占有很大的比例，所以我们通常对其做归一化处理。
Outliers：不管是对特征还是标签，异常数据对模型的鲁棒性都会带来较大的打击，所以常用取数据的99%来去除异常数据。
rank：在处理outlier的时候可以把数值型转化成rank排序特征，这样异常值和普通值之间的差距就不会那么大，在排序时要注意训练集与测试集之间的rank连接（对此，可以先把train和test连在一起再做rank排序）。
log transform和sqrt：这两种方法都可以把太大的值转化到均值附近，降低异常值带来的影响。

常用的特征处理方法

标签：归一化需要 for 去除影响 sqrt log 转化均值

原文地址：https://www.cnblogs.com/whig/p/9185355.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行