标签:
数据清洗
正负样本不平衡的处理方法:上采样,下采样,修改损失函数
数值型特征:幅度调整,归一化,离散化
类别型特征:one-hot 编码
组合特征
文本特征中的TF-IDF:TF(t)=(t在当前文中出现的次数)/(t在全部文档中出现的次数) IDF(t)=ln(总文档数/含t的文档数)IF-IDF=TF*IDF
原因:冗余,噪声
特征选择VS降维 :前者是踢掉特征里面和预测结果关系不大的特征,后者是做特征的计算组合构成新的特征
特征选择的3种方法:
过滤型
包裹型
嵌入型:加入L1正则化,有2-3千万是有权值的,其没有权值
标签:
原文地址:http://www.cnblogs.com/wuxiangli/p/5628053.html