标签:混淆 预测 ext 变化 dbr post 时间 数据集 金融
文: 郑旻圻 邹钰 刘巧莉
转自: 数信互融
在信用评分卡模型开发过程中,正态性是检验模型信用评分分布是否有效的一个重要指标。正常情况下,标准的正态分布是单峰分布;但是在实际建模过程中,会遇到信用评分分布出现双峰的情况。
双峰分布出现时,数据规律一致性的假设被打破,我们需要从不同的角度考察其出现双峰分布的原因,对模型加以调整,使之准确地反映业务和数据中的规律,以便模型准确适用。
根据为数十家互联网金融企业建立评分卡模型的实践经验,我们总结了一些造成双峰分布的因素。
本文将从业务模式、录入系统变更和变量这三个角度,对信用评分分布的双峰情况加以分析并解释其出现的原因。通过实际案例,通过具体解决方案的分享,与读者共同探讨交流讨论。
1
参考模型:违约模型(先息后本和等本等息的混合模型)
解释角度:业务模式(或者叫好坏客户定义模式)
根据项目初期的好坏客户定义,评分分布如图1所示。其中出现了双峰分布。
图1 信用评分分布直方图
考虑到好坏客户定义与实际业务模式相差较大且坏客户占比过低,采取重新定义好坏客户。新的评分分布直方图如图2所示。
图2 更改好坏客户定义后的信用评分分布直方图
可见,通过更改好坏客户的重新定义,解决了评分分布出现双峰的问题。
2
参考模型:违约模型(先息后本和等本等息的混合模型)
解释角度:录入系统变更
评分分布如图3、图4所示,可见在两个模型中均出现了双峰问题。
图3 先息后本模型的信用评分分布直方图
图4 等本等息模型的信用评分分布直方图
通过对上述两个信用评分卡模型中的变量进行比较与分析后,我们发现其中一个共有变量,即配偶知晓贷款,在两个模型中的得分都很低。于是我们在原始数据中对该变量进行深入分析,发现该变量在2014年12月27日之后就没有缺失值了。同时,我们也发现居住类别变量在该时间点之后也没有缺失值了。于是我们判断在该时间点该P2P公司发生过较大变动。经过跟对方的接触,证实在该时间点该P2P公司确实做过有关申请界面、必填字段、风控把控等的相关调整。就配偶知晓贷款这个变量而言,在录入系统调整之前有缺失选项;在调整之后,没有缺失选项,系统默认值为“是”。
由于录入系统发生了较大的更改,更改所在时间点前后的数据是不同的,我们决定采用该时间点之后的数据再次建模。
新的评分分布直方图如图5、图6所示:
图5 新的先息后本模型的信用评分分布直方图
图6 新的等本等息模型的信用评分分布直方图
通过发现录入系统的变更,我们采用变更后的数据进行建模,从而将双峰分布重新调整为单峰分布。
3
参考模型:申请模型
解释角度:变量
信用评分分布直方图如图7所示,发现出现双峰情况。
图7信用评分分布直方图
发现出现双峰,我们考虑是否因为某个变量对变量预测有重要作用,造成该变量分数分布对总体信用评分分布有重要影响。为找出这个变量,在计算总体评分时,按照模型变量的IV值,从大到小依次删除变量,观察删除某个变量后信用评分的分布情况。发现当删除银行卡月均流水变量后,信用评分分布的直方图如图8所示,发现双峰消失,由此确认双峰问题是由于银行卡月均流水变量引起的。
图8 删除银行卡月均流水变量后信用评分分布直方图
由于删除银行卡月均流水变量后的信用评分分布并不是标准的正态分布或者近似正态分布,从而进一步分析:统计银行卡月均流水变量各分类下的分数和对应的样本量。发现在频数相等的情况下,流水小于等于39000元和大于39000元两类分值相差较大。于是继续考虑是否因为银行卡月均流水变量的小于等于39000一类分数过低,与其它分类的分数相差较大,使得总体信用评分不满足标准正态性。
因此将样本按照银行卡月均流水变量大于39000、和小于等于39000分成两类后,计算各自总体分数的分布,分别如图9、图10所示。
图9 银行卡月均流水变量大于39000的信用评分直方图
图10 银行卡月均流水变量小于等于39000的信用评分直方图
从图9和图10中可发现,按照银行卡月均流水变量是否大于或者小于等于39000划分样本后,两个数据集下的信用评分分布皆展示了一定的正态性,图10中430和450分之间的高峰,正是总体评分分布出现小高峰的成因。
但是通过多次调整银行卡月均流水变量的分组,双峰问题依然无法解决,分析是否由于未知的外界因素引起,导致银行卡月均流水在[0,39000]和39000+两个范围内,样本之间存在较大的不同。
我们接下来观察是否由于进件时间不同引起:通过验证发现银行卡月均流水变量各类别,均分布在进件时间从2014年9月19日到2015年5月15日的区间内,并不存在显著的不同。
进一步考虑,是否由于借贷产品的不同而引起:
进过进一步分析发现,在相同产品类别下,银行卡月均流水变量的频数分布与坏客户占比分布并不存在显著的不同。
由此确定,产生双峰的外界因素并不是进件时间和借贷产品的不同,而是可能当银行卡月均流水较小时(低于39000),业务上对成功获贷的要求更加严格,从而使得这个区间的样本坏客户占比很高,从而该区间的信用评分很低,最终导致信用评分分布出现双峰。
当对银行卡月均流水变量进行相应分数调整后,其信用评分分布如图11所示。
图11 调整银行卡月均流水变量后的信用评分直方图
从而,通过对变量分数的调整,我们将双峰分布重新调整为单峰分布。
在P2P行业告诉发展的今天,互联网金融企业的管理系统和风控策略也不断更新完善,对应的内部系统不断完善的情况下,业务模式,系统升级,人员变动等都会造成数据中有隐含的规律发生变化,数据一致性的假设被打破。数据建模人员首先要与对方确认每一次业务、系统、人员等变更的时间节点,以便做出预判,并对可能的数据变动进行逻辑验证。
数据确定后,还需确定模型个数,尽可能保持客群和产品的统一性,避免将不同的客户群体或者不同的产品混淆在一个模型之中。当确定好数据采取时间、模型个数之后,要结合业务模式以及客户需求给出好坏客户定义,以便于模型开发的顺利进行。
在完成信用评分卡的开发之后,如果评分分布出现双峰,我们要从各个方面查明原因,比如对方业务模式是否曾经有过较大变动、录入系统是否更新过、好坏客户的定义是否合适、变量分组是否合理等等。对于不同业务背景的模型,我们要采取针对有效的方式进行查验。希望各位在看完本文后能够对双峰分布有一个直观的理解,而实际工作中遇到的情况是千变万化的,具体情况还需要从实际角度出发,根据相关业务背景查明原因。
标签:混淆 预测 ext 变化 dbr post 时间 数据集 金融
原文地址:http://www.cnblogs.com/stevendes/p/6053004.html