特征选择的一般过程
从特征全集中产生出一个特征子集,然后用评价函数对该特征子集进行评价,评价的结果与停止准则进行比较,若满足停止准则就停止,否则就继续产生下一组特征子集,继续进行特征选择。
特征子集产生过程( Generation Procedure )
采取一定的子集选取办法,为评价函数提供特征子集。根据搜索过程的方法的不同,可以将特征选择分为穷举、启发式、随机几种方法。
穷举(完全)
最优优先搜索
BFS
分支界限搜索
定向搜索
启发式
SFS SBS(序列前向、后向搜索)
评价函数( EvaluationFunction )
根据不同的评价准则,可以分为:过滤器模型、封装器模型以及混合模型。过滤器模型是将特征选择作为一个预处理过程,利用数据的内在特性对选取的特征子集进行评价,独立于学习算法。
而封装器模型则将后续学习算法的结果作为特征评价准则的一部分根据评价函数的不同(与采用的分类方法是否关联),可以将特征选择分为独立性准则、关联性度量。
常见的评价函数
卡方检验、相关性、距离、信息增益、属于筛选器,而分类器错误率属于封装器。