【风控】非平衡样本问题的定义和解决办法

时间：2020-02-20 13:05:52 阅读：77 评论：0 收藏：0 [点我收藏+]

标签：html 解决 log tps learn nbsp 没有 htm 各类

定义

各类别的出现概率不均衡的情况

如信用风险中正常用户远多于逾期、违约用户；流失风险中留存用户多于流失用户

隐患

降低对少类样本的灵敏性。但我们建模就是要找到这少类样本，所以必须对数据加以处理，来提高灵敏性。

解决方案

1. 过采样

对坏的人群提高权重，即复制坏样本，提高坏样本的占比。

优点：

简单，对数据质量要求不高

缺点：

容易过拟合

2. 欠采样

对好的人群降低权重，通过抽样，降低好样本的占比

优点：

简单，对数据质量要求不高

缺点：

丢失重要信息

3. Smote 合成少数过采样技术

优点：

不易过拟合，保留信息

缺点：

不能对有缺失值和类别变量做处理（原始smote方法）

解决办法：可以将类别型进行编码或聚类，对缺失值进行处理后再使用

操作方法：

1. 最邻近算法，计算出每个少数类样本的k个近邻

对于每个违约样本，计算出其k个近邻违约样本

2. 从k个近邻中随机挑选n个样本进行随机线性插值 （n<=k）

随机降低过拟合风险
线性保证方法高效简单（见下方公式）

3. 构造新的少数类样本

New = xi + rand(0,1) * (yj - xi) , j = 1,2,...,n

其中xi为少类中的一个观测点，yj为k个邻近中随机抽取的样本

上万的样本，5%左右违约率可以了，不需做以上处理。

或者使用带权重的对于样本的考量，比如从业务的角度，出现一个坏的，会抵消20个号的影响，则可以认为好坏比为20比1

4. 将新样本与原数据合成，产生新的训练集

在冷启动时，没有好坏客户的数据，一般用通过率来验证模型的好坏。不能过高，也不能很低。

来源:https://www.cnblogs.com/datalearner/p/11454944.html

【风控】非平衡样本问题的定义和解决办法

标签：html 解决 log tps learn nbsp 没有 htm 各类

原文地址：https://www.cnblogs.com/jing-yan/p/12335150.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行