码迷,mamicode.com
首页 > 其他好文 > 详细

特征工程

时间:2016-06-29 20:40:42      阅读:501      评论:0      收藏:0      [点我收藏+]

标签:

L1正则化和L2正则化的区别:L1起截断作用,L2起缩放作用(不让参数θ过大)

数据和特征处理

数据清洗

正负样本不平衡的处理方法:上采样,下采样,修改损失函数

数值型特征:幅度调整,归一化,离散化

类别型特征:one-hot 编码

组合特征

文本特征中的TF-IDF:TF(t)=(t在当前文中出现的次数)/(t在全部文档中出现的次数) IDF(t)=ln(总文档数/含t的文档数)IF-IDF=TF*IDF

特征选择

原因:冗余,噪声

特征选择VS降维  :前者是踢掉特征里面和预测结果关系不大的特征,后者是做特征的计算组合构成新的特征

特征选择的3种方法:

过滤型

技术分享

 

 包裹型

 技术分享

嵌入型:加入L1正则化,有2-3千万是有权值的,其没有权值

 

 技术分享

 

特征工程

标签:

原文地址:http://www.cnblogs.com/wuxiangli/p/5628053.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!