首页 > 其他好文 > 详细

特征工程

时间：2019-10-09 17:32:40 阅读：82 评论：0 收藏：0 [点我收藏+]

标签：数据相关 xgboost 变换 one 不同参数基于 pearson

特征工程

预处理

0.异常检测

为什么不全部使用普通有监督的方法来学习呢（即把它看做是一个普通的二分类问题）？主要是因为在异常检测中，异常的样本数量非常少而正常样本数量非常多，因此不足以学习到好的异常行为模型的参数，因为后面新来的异常样本可能完全是与训练样本中的模式不同。
可采用对每列特征分别用高斯分布去拟合，然后新来样本看每列特征是否符合分布。

1.无量纲化

标准化和区间缩放化(最大最小归一化)

2.对定量特征的二值化(设阈值)

3.对定性特征的哑编码(one-hot)

4.缺失值处理（利用均值替换等）

5.数据变换

基于多项式，指数函数，对数函数等

技术图片

特征选择

1.方差选择法

2.相关系数法（pearson）

3.卡方检验

4.互信息法、最大信息系数法

5.循环特征剔除(LR的递归剔除)

6.基于惩罚项(L1,L2)

L1惩罚项降维的原理在于保留多个对目标值具有同等相关性的特征中的一个，所以没选到的特征不代表不重要。故，可结合L2惩罚项来优化.

7.基于树模型(RF,GBDT,XGBOOST)

原文:大专栏特征工程

标签：数据相关 xgboost 变换 one 不同参数基于 pearson

原文地址：https://www.cnblogs.com/wangziqiang123/p/11643012.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！