标签:联网 情况 推出 后台 个性 tree 逻辑 空间 管理员
互金时代如何定制个性化信用评分模型
相比起传统金融机构,互联网金融以个性化服务取胜,由此也催生了各类深耕细分市场的互联网金融公司。不过这样一来,原来传统风控的玩法和经验,已经很难满足新兴互联网金融公司的风控需求。
如何用最为省时省力的方法,打造契合自身业务特色的个性化风控模型?如何利用先进的大数据手段,迅速提高风控的效率,降低风控的成本?今天就让处座来介绍一下吧。
风控将成互联网金融发展“痛点”
在经历2013至2014年的爆发式发展之后,互联网金融行业逐渐步入到规范化发展阶段。2016年是行业监管之年,随着互联网金融行业监管政策的不断明朗、规范,风险管理已经成为互联网金融发展中的“痛点”。只有做好了风险管理,才能使企业在新一轮的洗牌中脱颖而出,获得更广阔的市场和更优质的用户。
>>>>
我们先看两个例子:
案例一
A公司以前做的是有抵押贷款,但现在转向消费贷款领域,由于没有历史数据,没有办法建立合理的风险管理模型。
案例二
B公司设计了一款产品,主要客群为在校大学生,对于这个产品,普通的风控模型显然不适用,但建立新的模型又需要非常大的人力、物力。
对于一般的互联网金融公司来说,他们服务的时间不长,服务的人群有限,获取的信息无法形成海量数据,而国内拥有成体量数据的公司只有寥寥几家,且各个公司间壁垒明显,“数据孤岛”效应尤为显著。作为纯粹的第三方机构,获取大量数据的成本很高,仅凭一己之力建立一套风控体系显然需要花费大量的人力、物力、精力,还不一定做的好。为了解决这一问题,就需要各公司之间相互合作,积极打破“数据孤岛”格局,联合建立风险管理模型。
打造个性化定制大数据风险控制模型
独立开发契合自身业务特色的个性化风控模型,对于单个公司而言并非易事。最大的难点在于,你可能缺乏用户的历史违约数据,或者你的客户数据中,缺少金融相关维度数据。如果有一个数据平台,可以帮你补充相应客群的金融标签和历史违约数据,会不会解决广大互金企业个性化风控需求的好方法呢?为了达到上述要求,至少需要做以下六步工作:
1
数据提取
首先,我们挑选出与客户相关的变量,进一步生成许多衍生变量,作为建模平台的变量池。根据业务知识,将变量据业务知识,分为履约能力、身份特征、行为特征、消费偏好、失信风险、成长潜力、社交信用等七个维度。
2
相似客群的数据补充
大多数P2P等小贷公司的客户样本偏少,为了更好地建立模型,使用更多的变量。我们将自有样本,通过先进的抽样方法和相似客群匹配算法,添加一部分进入客户的样本数据中,打破“数据孤岛”。
3
缺失值填充
由于未采集到或者客户在某一个业务序列没数据等原因,建模采用的数据可能会有缺失。对此,我们采用不同的缺失值填充方法分别对不同类型变量的缺失值进行填充,包括中值填充,函数关系填充和贝叶斯网络填充等。为后续的建模工作带来了极大的便利。
4
特征工程
特征工程主要包含两部分内容,一是生成衍生变量,二是进行变量筛选。在模型训练时,可以使用通过不同方法产生的特征集,最终将得到的模型进行混合。衍生变量主要通过特征的实际业务意义,或通过机器学习算法以及主成分分析法来制作。生成完衍生变量之后,还需要对变量进行筛选,以提高模型的效率,防止过拟合现象。最终的特征变量集是以业务为主导,技术为支撑形成的集合体。
5
建立决策模型
利用专业的数据处理方法进行数据分析,量化数据指标,融合最前沿的大数据决策技术进行数据建模。包括递归决策树(GBDT),深度学习,贝叶斯网络等。针对不同的客户需求,研究定制化模型组合,以混合模型的方式建立最终的模型输出,并定期对模型进行优化,提升模型的预测能力。
6
模型调优
对于随机森林和GBDT模型,我们需要在极大的参数空间中选出最优的参数,其参数种类从大类上主要分为两种:Tree-specific参数和Boosting参数。Tree-specific参数是指那些影响单棵树的参数,Boosting参数是指影响全局的集成算法的参数。调整这些参数可以在防止过拟合的前提下提高模型的精度。
检验定制化联合建模的效果
为了验证模型的效果,处座邀请了某小贷公司进行了检验,用数据来检测一下该实际效果。
一般来说,客群由产品特点决定。比如,一个短期借贷场景的产品,所对应的客群往往风险较高,他们可能临时资金周转不开,仅需要1个月周期以内的借款。该小贷公司将他们经营产品对应的客群提供给我们,我们补充该客群的历史违约数据和金融属性标签,并进行建模。使用各维度变量数目的比例如下:
通常来说,不同类别的数据在预测违约风险上的表现能力不同。下图展示了各个维度变量对违约标签的显著性(以KS为指标)。
可以看到,在变量数目最多的履约能力和身份特征维度上,该模型的表现最好,这同时也与认为个人身份信息、金融信息在预测违约上是最为重要信息的业内共识相符。
在建模过程中,我们依次测试了逻辑回归、随机森林、迭代决策树(GBDT)以及组合模型(Stack Model)。各模型在原始数据和融合数据上的KS值如下图:
从KS值来看,组合模型在融合集团自有数据以后,相对于完全使用客户数据,模型表现出19%的显著提升;在融合数据上,组合模型相对于表现最好的单一模型——递归决策树——也有10%的提升。使用融合数据和组合模型的AUC表现提升与KS提升一致。
此外,我们不仅综合评价客户信用,还分别计算了反映不同方面信用情况的七大子维度评分,并计算不同子维度评分之间的相关性。下图给出子维度评分相关性的热力图,颜色越深,数值越高,说明两个变量的线性相关性越强。可以看到,子维度之间有一定相关性,但是相关性并不强,依然有相互补充的价值。
业务真实场景跟踪验证
依据上述模型测试效果,我们将该模型应用到某大型P2P网贷公司,并选取2016年4月份的真实违约客户和正常客户做模型验证,图中粉色区域代表违约客户,蓝色区域代表正常客户。可以看到,模型区分度在真实环境中KS值仍然可以达到0.21以上,从而验证模型的鲁棒性非常高。
总 结
从我们实际跟踪效果来看,上述模型在实际业务场景中取得了非常显著的效果提升,主要原因归结于两个方面:一是大数据信息的丰富性,我们充分利用了自有数据信息,能极大的补充客户自身缺乏的数据。二是先进的建模分析方法,确保把这些大数据融合,并提炼业务场景真正需要的预测特征,从而能够非常精准预测目标客群的风险信用。
处座这里也不卖关子了,上述模型就是前海征信推出的建模平台,想体验一下拥有智能风控专家相伴的便利吗?在微信后台给小编留言吧!
音符
为了促进行业从业人员之间的学习和交流,目前已开通1.贷前风控、2.反欺诈、3.贷后不良资产处置、4.FinTech大数据技术等四个微信交流群。扫描下列二维码,添加管理员为好友,并回复管理员你所关注喜好领域的关键词,管理员将拉你进入对应的500人交流群。
▼▼▼
关于“朝阳35处”
我们是来自于前海征信的专业大数据挖掘团队。我们不仅是数据科学家,更是数据玩客。我们既用数据挖掘技术解决专业领域的问题,也喜欢在各个领域寻找数据的乐趣,以好玩易懂的方式给大家提供新鲜靠谱的内容。我们会每周定时推送一篇原创干货,欢迎大家踊跃点击本帖底部的“写留言”与我们和广大大数据爱好者进行实时沟通和讨论。
标签:联网 情况 推出 后台 个性 tree 逻辑 空间 管理员
原文地址:http://www.cnblogs.com/stevendes/p/6028150.html