码迷,mamicode.com
首页 > 其他好文 > 详细

特征工程

时间:2019-10-09 17:32:40      阅读:82      评论:0      收藏:0      [点我收藏+]

标签:数据   相关   xgboost   变换   one   不同   参数   基于   pearson   

特征工程

预处理

0.异常检测

为什么不全部使用普通有监督的方法来学习呢(即把它看做是一个普通的二分类问题)?主要是因为在异常检测中,异常的样本数量非常少而正常样本数量非常多,因此不足以学习到好的异常行为模型的参数,因为后面新来的异常样本可能完全是与训练样本中的模式不同。
可采用对每列特征分别用高斯分布去拟合,然后新来样本看每列特征是否符合分布。

1.无量纲化

标准化和区间缩放化(最大最小归一化)

2.对定量特征的二值化(设阈值)

3.对定性特征的哑编码(one-hot)

4.缺失值处理(利用均值替换等)

5.数据变换

基于多项式,指数函数,对数函数等


技术图片

特征选择

1.方差选择法

2.相关系数法(pearson)

3.卡方检验

4.互信息法、最大信息系数法

5.循环特征剔除(LR的递归剔除)

6.基于惩罚项(L1,L2)

L1惩罚项降维的原理在于保留多个对目标值具有同等相关性的特征中的一个,所以没选到的特征不代表不重要。故,可结合L2惩罚项来优化.

7.基于树模型(RF,GBDT,XGBOOST)

原文:大专栏  特征工程


特征工程

标签:数据   相关   xgboost   变换   one   不同   参数   基于   pearson   

原文地址:https://www.cnblogs.com/wangziqiang123/p/11643012.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!