标签:停止 内容 head 分析 div 无法 提取 初始化 增量
不管是一代还是二代征信报告,其包含的信息都是繁多且复杂的,并且无法直接使用原始数据进行CA分析和建模,为了快速、准确、全面地获取征信信息,需要对征信进行矢量提取,得到征信矢量。
提取征信矢量原则:
提取征信矢量作用:
快速高效解读征信报告
便捷有效地建立客户个性档案
使客户群体的对比简单易行
用于设计准入规则与信贷策略
单变量分析基础
作为评分卡建模输入变量
征信矢量提取之后,为了区分不同矢量对风险的识别能力,这时就需要计算每个矢量的信息熵,这个过程就是单变量分析,也叫CA分析。CA分析的原理及过程见下表:
变量 | 好客户数 | 好客户占比 | 坏客户数量 | 坏客户占比 | 好/坏指数 | 比率 | 信息熵增量 |
---|---|---|---|---|---|---|---|
A:0 to 2 | 10000 | 10% | 400 | 40% | -4.0 | -4.0 | 41.59 |
B:2 to 5 | 20000 | 20% | 300 | 30% | -1.5 | -1.5 | 4.05 |
C:5 to 9 | 30000 | 30% | 200 | 20% | 1.5 | 1.5 | 4.05 |
D:>9 | 40000 | 40% | 100 | 10% | 4.0 | 4.0 | 41.59 |
合计 | 100000 | 1000 | 91.29 |
表格解读:
最后把不同箱体的信息熵增量相加,就得到该变量的信息熵。对于不同的征信矢量,信息熵越大,区分好坏客户的能力越强。
简而言之,分箱就是对变量进行分组。分箱是CA分析的第一步,也是最重要的一步。
分箱的原理
分箱的实质,其实就是对连续变量离散化、单调化、线性化的过程。
分箱的好处
分箱的方法
卡方分箱的思路,是先对变量进行离散化,然后判断相邻区间好坏客户分布是否一致。如果两个相邻区间具有类似分布,则这两个区间可以合并;否则,应当保持分开。而低卡方值表明它们具有相似分布,可以合并。
卡方分箱原理
卡方分箱步骤
值得注意的是,若卡方分箱中出现某个箱内全部为好客户或坏客户,则需要进行合并处理。
卡方阈值的确定
单调化处理
卡方分箱后,还需对变量进行趋势处理以保证单调性。单调化的目的,是为了让变量在模型中易于解释(可解释性,保证和业务逻辑一致)。常用有两种方法:
Beat-KS分箱原理
Beat-KS分箱步骤
目前的分箱方法(卡方分箱)如何改进?
标签:停止 内容 head 分析 div 无法 提取 初始化 增量
原文地址:https://www.cnblogs.com/1k-yang/p/12487908.html