基本流程:
数据收集、数据建模、构建数据画像、风险定价。
数据收集:网络行为数据、企业服务范围内行为数据、用户内容偏好数据、用户交易数据、授权数据源、第三方数据源、合作方数据源、公开数据源。
数据建模:文本挖掘、自然语言处理、机器学习、预测算法、聚类算法。
数据画像:基本属性、购买能力、行为特征、兴趣爱好、心理特征、社交网络。
风险定价:申请模型、行为监控模型、违约模型、催收策略模型。
目前国内90%以上的建模团队使用logistic回归做评分卡,少数使用决策树。
应用案例:
1、欺诈风险用到的模型:社会关系网络模型。
通过每笔案件之间的关系,判断新案件是欺诈申请的可能性。
2、信用风险主要用到的模型:logistic回归建立评分卡。
量化新申请人可能违约的概率,根据评分高低制定不同的授信规则和催收策略。
3、贷后管理用到的模型:也是行为评分卡。
例如额度调整和客户风险分池管理等。
注意:
用户数据需要进行规整处理,转化为相同维度的特征向量,然后算法才能派上用场。
对于结构化数据而言,特征提取工作往往都是从给数据打标签开始的。比如购买渠道,年龄性别等等。
对于已经打好的标签,根据不同的分析场景进行离散化,或将分类类型的标签拆成多个0/1标签,就可以进行一些机器学习的建模,比如聚类、分类、预测、关联性分析,最终生成的向量维度在数千个。
实际建模案例:http://blog.csdn.net/l18930738887/article/details/50662900
原文地址:http://www.cnblogs.com/JessicaLearn/p/6341483.html