第七篇：数据预处理(四) - 数据归约(PCA/EFA为例)

时间：2017-05-20 21:56:51 阅读：277 评论：0 收藏：0 [点我收藏+]

前言

这部分也许是数据预处理最为关键的一个阶段。

如何对数据降维是一个很有挑战，很有深度的话题，很多理论书本均有详细深入的讲解分析。

本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA)，并给出具体的实现步骤。

主成分分析法 - PCA

主成分分析（principal components analysis， PCA）是一种分析、简化数据集的技术。

它把原始数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标（第一主成分）上，第二大方差在第二个坐标（第二主成分）上，依次类推。主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是在处理观测数目小于变量数目时无法发挥作用，例如基因数据。

PCA基本步骤

第一步：载入所需包和测试集数据：

技术分享

测试数据集内容大致如下：

技术分享

第二步：确定主成分的个数：

技术分享

在该函数中，fa是指定分析类型为主成分，n.iter是指平行分析中模拟测试的迭代次数为100次。结果如下：

技术分享

其中，蓝线为测试数据集中不同主成分对应的特征值折线图；红线为平行分析中模拟测试矩阵的不同主成分对应的特征值折线图。

可采用以下几个思路来确定主成分的具体个数：

1. 保留特征值大于1的主成分个数
2. 根据图形弯曲的情况，选取图形变化最大处之上的特征值对应的主成分
3. 特征值大于模拟矩阵的平均特征值的主成分保留

根据这几个经验法则，可确定主成分的个数为1。

当然，有一个更简单的确定方法 -- 在你调用fa.parallel函数之后，系统shell端会告诉你建议的主成分个数：

技术分享

第三步：提取主成分

技术分享

其中，nfactors是指定提取的主成分的个数。

执行完毕后shell端打印如下信息：

技术分享

这些信息中，最重要的是载荷矩阵，也就是上方列为h2，u2的那个矩阵。

我们只看PC1那一列(h2 u2先不去管它)，当然如果你指定的主成分个数是2，那么就会有PC2，以此类推。而行代表的则是每个特征。矩阵的值，也即载荷矩阵的值是数据集协方差矩阵对应的特征向量，也即这个主成分在该特征中所占的比重。如果你了解后面要讲的因子分析，那么也许会对这个表述产生疑惑 - 这不和因子一模一样吗？

--- 答曰确实是的。主成分法本来就是选择因子的一种方法。事实上很多时候你也可以从载荷矩阵里观察得出主成分的现实意义。如果对主成分分析的结果不满意，可以尝试进行各种旋转以调整各个主成分所占的比重，具体请查阅principal函数的rotate参数。

第四步：获取主成分得分

技术分享