码迷,mamicode.com
首页 > 其他好文 > 详细

特征工程

时间:2019-09-07 13:22:42      阅读:90      评论:0      收藏:0      [点我收藏+]

标签:html   频繁   比较   权重   数据   领域   参考   算法   嵌入   

一、特征选择

(1)特征来源:

    1、已经处理好的特征数据

    2、从业务特征中自己去寻找高级数据特征

(2)选择合适的特征:

    1、寻找该领域专家,向他们寻求建议

    2、方差筛选

    3、过滤法

    4、包装法

    5、嵌入法

(3) 寻找高级特征

    1、若干项特征向加和

    2、若干项特征相乘

    3、若干项特征之差

    4、若干项特征除商

 

二、特征表达(如何对某一特征的具体表现形式做处理

(1)缺失值处理

    1、对连续值来说:取平均值、中位数进行缺失值补充

    2、对离散值来说:最频繁出现的类别

(2)特殊的特征处理

  一般有些特征的默认值取值比较特殊,一般需要做了处理后才能用于算法

    1、对于时间特征:采用连续的时间差值法;转化为若干离散特征;权重法

    2、对地理特征:可以转化为经度和维度连续特征值

(3)离散特征的连续处理:

    1、独热编码one-hot encoding

    2、特征嵌入embedding

(4)离散特征的离散化:

    1、独热编码

    2、虚拟编码

(5) 连续特征离散化

 

三、特征预处理

(1)特征的标准化与归一化

    1、z-score标准化

    2、max-min标准化

    3、L1、L2范数标准化

(2)异常特征样本清洗

    1、聚类

    2、异常点检测

(3)处理不平衡数据

    1、权重法

    2、采样法

 

参考:https://www.cnblogs.com/pinard/p/9093890.html

   https://www.cnblogs.com/pinard/p/9061549.html

   https://www.cnblogs.com/pinard/p/9061549.html

特征工程

标签:html   频繁   比较   权重   数据   领域   参考   算法   嵌入   

原文地址:https://www.cnblogs.com/spp666/p/11479999.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!