特征提取，特征选择

时间：2015-10-04 17:08:42 阅读：237 评论：0 收藏：0 [点我收藏+]

标签：

特征提取是机器学习的准备工作。

一、特征大体上分几种呢

有人分：high features 和low features. high features 指比较泛的特征；low features 指相对具体的特征。

有人分：具体特征，原始特征（不加工raw），抽象特征。

总体上，Low Level 比较有针对性，单个特征覆盖面小（含有这个特征的数据不多），特征数量（维度）很大。High Level比较泛化，单个特征覆盖面大（含有这个特征的数据很多），特征数量（维度）不大。长尾样本的预测值主要受High Level特征影响。高频样本的预测值主要受Low Level特征影响。

非线性模型的特征
1）可以主要使用High Level特征，因为计算复杂度大，所以特征维度不宜太高；
2）通过High Level非线性映射可以比较好地拟合目标。
线性模型的特征
1）特征体系要尽可能全面，High Level和Low Level都要有；
2）可以将High Level转换Low Level，以提升模型的拟合能力。

二、特征归一化

特征抽取后，如果不同特征的取值范围相差很大，最好对特征进行归一化，以取得更好的效果，常见的归一化方式如下：

- 　　Rescaling：
  归一化到[0,1] 或 [-1，1]，用类似方式：

Standardization：
设为x分布的均值，为x分布的标准差；
Scaling to unit length：
归一化到单位长度向量

三、特征选择

特征抽取和归一化之后，如果发现特征太多，导致模型无法训练，或很容易导致模型过拟合，则需要对特征进行选择，挑选有价值的特征。

Filter：
假设特征子集对模型预估的影响互相独立，选择一个特征子集，分析该子集和数据Label的关系，如果存在某种正相关，则认为该特征子集有效。衡量特征子集和数据Label关系的算法有很多，如Chi-square，Information Gain。
Wrapper：
选择一个特征子集加入原有特征集合，用模型进行训练，比较子集加入前后的效果，如果效果变好，则认为该特征子集有效，否则认为无效。
Embedded：
将特征选择和模型训练结合起来，如在损失函数中加入L1 Norm ，L2 Norm。

特征提取，特征选择

标签：

原文地址：http://www.cnblogs.com/Wanggcong/p/4854693.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行