码迷,mamicode.com
首页 > 其他好文 > 详细

特征工程

时间:2019-09-02 12:01:31      阅读:81      评论:0      收藏:0      [点我收藏+]

标签:art   要求   怎么   div   线性   决策树   提升   原因   方式   

1.捕捉A、B变量中的(A强,B弱|A弱、B强)(A中,B中)这样的特征情况,可以用决策树方法(cart)先对A/B变量分箱,然后对分箱结果编码,

然后对分箱结果相乘生成新变量,里面就会有上面说的这种组合变量出现。

这也是为什么好多方法中,先生成一个模型,然后再将这个模型的结果作为一个变量进入另一个模型中,结果会比较好的原因。

2.在对连续变量的处理方式上

1)分箱简单,且可以增强模型稳定性,实际业务中,越简单解释性越强越好。

2)分箱满足模型效果要求,你用后者方法一顿操作,效果可能没有什么提升

3)分箱主要是用于处理连续型变量,这个你不分箱还能怎么做呢

 至于卡方分箱+woe,基本是线性模型的处理方式,尤其是业内常用的logistic,逻辑简单,操作性强,解释性好。
你用树模型或者svm、神经网络等,就对应着其他的分箱和编码方式 

 

特征工程

标签:art   要求   怎么   div   线性   决策树   提升   原因   方式   

原文地址:https://www.cnblogs.com/ironan-liu/p/11433088.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!