标签:数据 相关 xgboost 变换 one 不同 参数 基于 pearson
0.异常检测
为什么不全部使用普通有监督的方法来学习呢(即把它看做是一个普通的二分类问题)?主要是因为在异常检测中,异常的样本数量非常少而正常样本数量非常多,因此不足以学习到好的异常行为模型的参数,因为后面新来的异常样本可能完全是与训练样本中的模式不同。
可采用对每列特征分别用高斯分布去拟合,然后新来样本看每列特征是否符合分布。
1.无量纲化
标准化和区间缩放化(最大最小归一化)
2.对定量特征的二值化(设阈值)
3.对定性特征的哑编码(one-hot)
4.缺失值处理(利用均值替换等)
5.数据变换
基于多项式,指数函数,对数函数等
1.方差选择法
2.相关系数法(pearson)
3.卡方检验
4.互信息法、最大信息系数法
5.循环特征剔除(LR的递归剔除)
6.基于惩罚项(L1,L2)
L1惩罚项降维的原理在于保留多个对目标值具有同等相关性的特征中的一个,所以没选到的特征不代表不重要。故,可结合L2惩罚项来优化.
7.基于树模型(RF,GBDT,XGBOOST)
标签:数据 相关 xgboost 变换 one 不同 参数 基于 pearson
原文地址:https://www.cnblogs.com/wangziqiang123/p/11643012.html