标签:指定 相关 排除 变量 接口调用 步骤 评分 特征 自己的
①自变量不能相关,即排除自相关性,还有共线性;②变量一定要显著。③变量要独立同分布。
所以我们要进行共线性筛查,显著性筛查,相关性筛查,才能选择出入模变量。
9. 逻辑回归创建评分卡模型核心步骤:
a) 变量分箱,可以排除异常值的影响,分法有等宽、等频、人工指定分箱、C4.5决策树、卡方分箱。
b) WOE编码。作用:排除量纲影响。计算方式是每箱好样本比例与坏样本比例的比值的自然对数。
c) IV值,又称为信息浓度。计算公式是每箱好样本比例与坏样本比例的差值,再乘以对应的WOE值,一般选择IV>=0.02的变量。
d) 共线性、相关性、显著性检验。
e) 计算每个变量对应切分点的分数。Score=A+B*ln(odds),y=logist(p)=ln(p/(1-p))=b+aX=b+coewoe
10. 建模样本:负样本占总样本比例5%以上就行,最好是10%以上。
11. 变量分为连续变量与分类变量的依据是: 连续变量的水平种类在10种以上,分类变量的水平种类在10种以下。
12. 字符型分类变量转整型 为什么模型容易调用?
13. 字符型分类变量转为数值型方式:哑变量,WOE编码,坏样本率。
14. 自动化分箱(最优分箱):KS分箱,卡方分箱,决策树分箱。手动分箱:WOE(ln(odds))。对样本集最优,但会忽略可解释性。
15. 评分卡计算分数公式
16. 评分卡模型建立完成,需要检验准确性和稳定性,还要监控
17. 分箱,数据处理,特征衍生,有效性,分数稳定性,变量稳定性,模型调优可能比不上业务上的逻辑变量。
标签:指定 相关 排除 变量 接口调用 步骤 评分 特征 自己的
原文地址:https://www.cnblogs.com/likedata/p/11186609.html