Graph Regularized Feature Selection with Data Reconstruction

时间：2020-02-21 18:23:01 阅读：66 评论：0 收藏：0 [点我收藏+]

标签：clu span 判断不变性 problem 控制 str ini ring

Abstract

• 从图正则数据重构方面处理无监督特征选择；

• 模型的思想是所选特征不仅通过图正则保留了原始数据的局部结构，也通过线性组合重构了每个数据点；

• 所以重构误差成为判断所选特征质量的自然标准。

• 通过最小化重构误差，选择最好保留相似性和判别信息的特征；

1 Introduction

• 目前有两大类无监督特征选择算法：Similarity preserving 和 clustering performance maximization；Similarity preserving 算法选择最好保留原始数据的局部结构的代表性特征。例如，如果数据点在原始空间分布很近，那么在选择的特征上也应该分布很近；clustering performance maximization 选择能最大化某个聚类标准的判别特征。例如，引入伪标签选择最大化数据聚类效果的判别特征。

• 模型的目标是选择能同时最好保留数据在原始空间的局部结构和判别信息的特征。

• highlight：

（1）从图正则数据重构的角度考虑无监督特征选择问题。通过最小化图正则重构误差，我们选择了最好保留数据结构和判别信息的特征；

（2）通过在混合目标函数上的稀疏学习考虑特征选择问题。引入了一个 l1-norm 稀疏项作用于特征选择矩阵，特征选择矩阵的稀疏性减少了冗余和噪声特征；

（3）提出了一个迭代梯度算法。

2 Related Work

2.1 Similarity Preserving Based Feature Selection