维数约减报告

时间：2020-03-02 20:30:12 阅读：96 评论：0 收藏：0 [点我收藏+]

标签：需要 com ima 选择过程定义数据线性变换信息技术缩小

维数约减报告

编写人：杨根黎君玉张荣华

1 .背景和意义... 2

2.维数约减... 2

3.维数约减的常见方法... 5

4.维数约减应用... 7

5.优缺点：... 7

优点：... 7

缺点：... 7

1 .背景和意义

伴随着科学信息技术水平的不断提高，人们对数据的存储与采集能力的快速提升，使得获取数据变得越来越容易，而数据处理的能力却没有得到较好地改善。在科学研究的诸多领域中，如人脸识别、生物信息学、信息检索、遥感图像处理等都积累了大量的数据。就普遍而言，这些数据具有“高维性”和“海量性”等特点，而且数据构造变得越来越复杂。如果直接对高维数据进行处理时会带“维数灾难”（Curse of Dimensionality）问题；而且，如果样本数小于数据的特征维数时，会导致模型估计的性能恶化，出现所谓的小样本问题。因此，如何挖掘出高维海量的数据中背后蕴藏的符合实际需求有用知识，探索高维数据中隐藏的数据结构和内在分布规律将成为模式识别、机器学习、数据挖掘、计算机视觉等诸多研究领域的极大挑战

在信息化时代，维数约减是高维数据处理的有效手段，其在数据有效降低维度的同时减少数据中的噪声和冗余信息；是人工智能的研究核心之一，在科学研究领域中承担着十分重要的作用。

2.维数约减

维数约减是指将样本从原始输入空间通过某种变换或映射获得原数据集有效子空间的低维表示。维数约减作为高维数据处理的一种有效方式，其对数据降维希望不损失数据的关键特征信息，且同时保留原始数据的潜在的内在结构。维数约减作为数据处理的预处理过程，能够有效的提高后续机器学习的性能和有效的提高分类效果。然而，也会造成一定的信息损失。维数约减方法在用于降维的同时不仅有效的减少数据中冗余信息、噪声信息及不相关的信息，而且能够有效的解决高维数据所带来的维数灾难性问题大大减低数据处理的计算复杂度。在很多的实际情况下，将高维数据的维数的降到一个适当的范围，而且在能尽可能的不破坏初始数据的结构分布，进而有利于对数据的处理。

在收集数据的过程中，数据量大，成千上万，其特征也不一致，一般在各种情况下，我们很难把这些数据理清，但往往数据间也存在某种特别的联系，因此，需要运用维数约减（Dimensionality Reduction）来对这些数据进行去冗余，从而提高机器学习的效率。

定义

维度约减是一种无监督学习，它的实质是去除冗余特征。

对维数约减概述：

例如厘米和英尺，都是长度的度量，那么：

技术图片