标签:modules die 卡方检验 分类器 tran over 包装 效果 用户
title: sklearn-特征工程之特征选择
date: 2016-11-25 22:49:24
categories: skearn
tags: sklearn
---
抄袭/参考资料
当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:
根据特征选择的形式又可以将特征选择方法分为3种:
我们使用sklearn中的feature_selection
库来进行特征选择。
VarianceThreshold
是特征选择中的一项基本方法。它会移除所有方差不满足阈值的特征。默认设置下,它将移除所有方差为0的特征,即那些在所有样本中数值完全相同的特征。
from sklearn.feature_selection import VarianceThreshold
# 设置方差阈值为100
sel = VarianceThreshold(threshold=100)
sel.fit_transform(X)
单变量特征选择基于单变量的统计测试来选择最佳特征。它可以看作预测模型的一项预处理。Scikit-learn将特征选择程序用包含transform 函数的对象来展现:
SelectKBest
移除得分前 \(k\) 名以外的所有特征SelectPercentile
移除得分在用户指定百分比以后的特征SelectFpr
, 伪发现率(false discovery rate) SelectFdr
, 或族系误差率 SelectFwe
.GenericUnivariateSelect
可以设置不同的策略来进行单变量特征选择。同时不同的选择策略也能够使用超参数寻优,从而让我们找到最佳的单变量特征选择策略。这些作为打分函数输入的对象(同样位于feature_selection
模块中),返回单变量的概率值:
- 用于回归:
f_regression
- 用于分类:
chi2
(卡方)orf_classif
递归消除特征法使用一个基模型来进行多轮训练,每轮训练后,消除若干权值系数的特征,再基于新的特征集进行下一轮训练。
class sklearn.feature_selection.SelectFromModel(estimator,
threshold=None,
prefit=False)
使用L1范数作为惩罚项的:ref:Linear models会得到稀疏解:大部分特征对应的系数为0。当你希望减少特征的维度以用于其它分类器时,可以通过 feature_selection.SelectFromModel
来选择不为0的系数。特别指出,常用于此目的的稀疏预测模型有:
linear_model.Lasso
linear_model.LogisticRegression
和 svm.LinearSVC
from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import Lasso
lr = Lasso(alpha=10)
lr.fit(X,y)
#带L1惩罚项的逻辑回归作为基模型的特征选择
model = SelectFromModel(lr, prefit=True)
model.transform(X)
基于树的预测模型(见 sklearn.tree
模块,森林见 sklearn.ensemble
模块)能够用来计算特征的重要程度,因此能用来去除不相关的特征(结合 sklearn.feature_selection.SelectFromModel
)
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import GradientBoostingRegressor
gbdt = GradientBoostingRegressor()
gbdt.fit(X,y)
#GBDT作为基模型的特征选择
model = SelectFromModel(gbdt, prefit=True)
model.transform(X)
标签:modules die 卡方检验 分类器 tran over 包装 效果 用户
原文地址:https://www.cnblogs.com/stream886/p/10050058.html