标签:指标 效果 strong 排除 处理 预测 正则 特征 卡方
1. 处理计数
1.1 二值化
1.2 区间量化(分箱)
固定宽度分箱:通过固定宽度分箱,每个分箱中会包含一个具体范围内的数值。这些范围可以人工定制,也可以通过自动分段来生成,它们可以是线性的、也可以是指数性的。
分位数分箱:(分位数是可以将数据分为相等的诺干份数的值。)例如中位数、四分位数、十分位数。
1.3 对数变换
对数函数可以对大数值的范围进行压缩,对小数值的范围进行扩展。可以有效解决重尾分布,使数据分布更加均匀。
1.4 特征缩放/归一化
1.4.1 min-max缩放
1.4.2 特征标准化/方差缩放
1.4.3 范数归一化
1.5 特征交叉
2. 特征选择
2.1 过滤法
过滤法比较简单,它按照特征的发散性或者相关性指标来对各个特征进行评分,设定评分阈值或者选择阈值的个数,选择合适特征。常用的方法包括方差筛选、相关系数、假设检验(卡方检验)、互信息。
2.2 包装法
根据目标函数,通常是预测效果评分,每次选择部分特征或者排除部分特征。常用的方法包括递归消除特征法。
2.3 嵌入法
嵌入法先使用某些机器学习的算法和模型进行训练,得到各个特征的权重系数,根据权重系数从大到小来选择特征。常用的方法包括L1正则化、L2正则化、决策树等。
标签:指标 效果 strong 排除 处理 预测 正则 特征 卡方
原文地址:https://www.cnblogs.com/LuckPsyduck/p/12128926.html