数据分析及建模

时间：2016-05-27 12:39:55 阅读：248 评论：0 收藏：0 [点我收藏+]

标签：

版权说明：内容来自互联网及书籍

一、主成分分析PCA

1. 基本思想

主成分分析是一类常用的针对连续变量的降维方法，选取能够最大化解释数据变异的成分，将数据从高维降到低维，同时保证各个维度之间正交。

主成分分析的具体方法是对变量的协方差矩阵或相关系数矩阵求取特征值和特征向量，经证明，对应最大特征值的特征向量，其方向正是协方差矩阵变异最大的方向，依次类推，第二大特征值对应的特征向量，是与第一个特征向量正交且能最大程度解释数据剩余变异的方向，而每个特征值则能够衡量各方向上变异的程度。因此，进行主成分分析时，选取最大的几个特征值对应的特征向量，并将数据映射在这几个特征向量组成的参考系中，达到降维的目的（选择的特征向量数量低于原始数据的维数）。

当分析中所选的变量具有不同的量纲，且差别比较大的情况下，应选择相关系数矩阵进行主成分分析。

主成分分析适用于变量之间具有相关关系，变量在三维空间中呈现椭球形分布。多变量之间有显著的强线性相关，表明主成分分析是有意义的。

2.主成分的计算公式

3.散点图解

原始数据可以使用原坐标系中的向量来表示，协方差矩阵的特征向量为A和B，由于A方向的变异远大于B方向，因此，将所有点映射到A上，并使用A 作为参考系来?述数据，这样忽略了数据在B方向上的变异，但却将二维的数据降低到了一维。

4. 主成分分析的步骤

技术分享

5. 选择主成分个数

主成分分析的目的是简化变量，一遍保留的主成分应该小于原始变量的个数。根据主成分分析的目的，个数选取的方法是有区别的。

具体保留几个主成分，应该遵循两个原则（两个原则同时使用，可只考虑一个）：

1. 单个主成分解释的变异不应该小于1（特征根值布小于1）

2. 选取的主成分的累计变异应该达到80% ~ 90%（累计特征根值占总特征根值80%以上）

6. 应用场景

主成分法的应用大致分为三个方面： 1、对数据做综合打分； 2、降维以便对数据进行描述；3、为聚类或回归等分析提供变量压缩。在应用时要能够判断主成分法的适用性，能够根据需求选取合适的主成分数量。

二、因子分析

1. 基本思想

主成分分析时一般情况下不能对主成分所代表含义进行业务上的解读，因为主成分方向上一般不会恰好某些变量权重大，而另外一些变量权重都小，这也表现在主成分权重的形成的散点图会偏离坐标轴。如果可以将主成分的坐标轴进行旋转，使一些变量的权重的绝对值在一个主成分上达到最大，而在其他主成分上绝对值最小，这样就达到了变量分类的目的。对应地，这种维度分析方法被称为因子分析。

因子分析是一类常用的连续变量降维并进行维度分析的方法，其经常采用主成分法作为其因子载荷矩阵的估计方法，在特征向量方向上，使用特征值的平方根进行加权，最后通过因子旋转，使得变量的权重在不同因子上更加两极分化。常用最大方差法进行因子旋转，这种方法是一种正交旋转。

2. 正交旋转因子模型

3. 因子分析的一般步骤

4. 因子载荷矩阵的估计

一般使用主成分分析方法。选择合适的因子数量，这一步需要主成分分析的结果，因子个数的确定标准比主成分分析宽，比如，特征根大于0.7就可以考虑保留。

5. 因子旋转

旋转的目的是使因子负荷两级分化，要么接近0，要么接近-1或1，这样易于对因子做出解释。

分为：正交旋转和斜交旋转。

正交旋转，因子间的信息不会重叠。最常用的是最大方差旋转，是一种正交旋转，目的是使载荷平方的方差最大化。

6. 因子分析的应用

因子分析通主成分分析类似，适用于变量之间存在较强的线性关系的情况，能够综合出几项反映变量共同特别的指标。最简单的方法就是计算变量的相关系数矩阵，要是大部分相关系数值小于0.3，就不适用因子分析。还有一些检验方法，如巴特利特球形检验，KMO检验等。

因子分析作为维度分析的手段，是构造合理的聚类模型和稳健的分类模型的必然步骤，用于降低解释变量共线性带来的模型不稳定性。

三、聚类分析

聚类分析是一种分类的多元统计分析方法。按照个体或样品的特征将它们分类，使同一类别内的个体具有尽可能高的同质性(homogeneity)，而类别之间则应具有尽可能高的异质性。

1.聚类分析的基本逻辑

聚类分析的基本逻辑是计算观测值之间的距离或者相似度。距离较小、相似度较高，按照相似度进行分组。

具体可以分为三个步骤：

1. 从N个观测和K个熟悉数据开始；

2. 计算N个观测两两之间的距离；

3. 将距离近的观测聚为一类，将距离远的分为不同的类，最终达到组间的距离最大化，组内的距离最小化。

2.聚类分析的方法种类

系统聚类法（层次聚类）：该方法可以得到较理想的分类，但是难以处理大量样本。

K-means聚类（非层次聚类、快速聚类）：可以处理大量样本，但是不能提供类相似度信息，不能交互的决定聚类个数。

两步法聚类（先使用K-means聚类，后使用层次聚类）

3. 系统聚类

系统聚类，也就是层次聚类，指的是形成类相似度层次图谱，便于直观的确定类之间的划分。其基本思想在于令 n 个样本自成一类，计算其两两之间的相似性，此时类间距离与样本间距离是等价的。把测度最小的两个类合并，然后按照某种聚类方法计算类间的距离，再按最小距离准则并类。这样每次减少一类，持续下去，直到所有样本都归为一类为止。该方法可以得到较理想的分类，但是难以处理大量样本。

1. 基本步骤

（1）对数据进行变换处理；（不是必须的，当数量级相差很大或指标变量具有不同单位时是必要的）

（2）构造n个类，每个类只包含一个样本；

（3）计算n个样本两两间的距离；

（4）合并距离最近的两类为一新类；

（5）计算新类与当前各类的距离，若类的个数等于1，转到6；否则回4；

（6）画聚类图；

（7）决定类的个数，从而得出分类结果。

2. 数据预处理

不同要素的数据往往具有不同的单位和量纲，其数值的变异可能是很大的，这就会对分类结果产生影响，因此当分类要素的对象确定之后，在进行聚类分析之前，首先要对连续变量进行处理。

在聚类分析中，常用的聚类要素的数据处理方法有如下几种：

①Z soroes标准化

②标准差标准化

③正态标准化

经过这种标准化所得的新数据，各要素的极大值为1，极小值为0，其余的数值均在0与1之间。

为了得到合理的聚类结果，不但要对数据进行标准化，还要对变量进行维度分析。一般采用因子分析进行维度分析，根据样本的特征选择因子转换的方法，对观测数据进行处理，并在保存的因子结果上进行聚类分析。

如果变量呈偏态分布，可以对数据进行函数变换来克服偏态性，如对数变换。

3.观测点间距离的计算

在聚类时的一个重要问题是定义样本距离，一般使用欧式距离或闵可夫斯基距离，闵可夫斯基距离公式如下：
技术分享

4. 观测类间聚类的计算

另一个重要为题是定义两个类之间的距离，方法包括平均联接法、重心法和 Ward 最小方差法。

（1）平均连接法又称全连接法，即将一类的所有观测值与另一类的所有观测值分别做两两之间的距离，求所有距离的平均值作为类间距离：
技术分享

（2）重心法计算的是观测类各自重心之间的距离：

技术分享

（3）Ward 最小方差法：基于方差分析的思想，如果分类合理，则同类样本间离差平方和应当较小，类与类间离差平方和应当较大。 Ward 最小方差法并类时，总是使并类导致的类内离差平方和增量最小。因此，该方法很少受到异常值的影响，在实际应用中的分类效果较好，适用范围广。但该方法要求样品间的距离必须是欧氏距离。

4. K-means聚类

K-means 聚类是一种快速聚类法，适合应用于大样本量的数据。其方法可以总结为：首先随机选择 K 个点作为中心点，所有样本与这 K 个中心点计算距离，距离最近的样本被归为与中心点同类的点，然后重新计算每个类的中心，再次计算每个样本与类中心的距离，并按照最短距离原则重新划分类，如此迭代直至类不再变化为止。

1. 基本步骤

（1）设定K值，确定聚类数（软件随机分配聚类中心所需的种子）。

（2）计算每个记录到类中心的距离（欧式聚类），并分成K类。

（3）然后把K类中心（均值）作为新的中心，重新计算距离。

（4）迭代到收敛标准停止。

2. 优缺点

该方法的优点是计算速度快，可用于样本量较大的数据，缺点是需要人为设定聚类的数量 K，同时其初始点的不同选择可能会形成不同的聚类结果，因此常常使用多次选择初始中心点，并对最终的多个聚类结果取平均的方法来构建稳定的模型。

3. 应用实例

发现异常值：如刷信用级别的违规者的行为会与正常消费行为在消费频次、平均消费金额等方面差异比较大，对其进行定位相当于发现异常点，因此要求对变量的转换不能改变其原有分布形态。常用的标准化方法如中心标准化、极差标准化不会改变分布形态，而且在聚类前往往需要使用标准化来消除变量的量纲。

四、对应分析

对应分析是一种数据分析技术，它能够帮助我们研究由定性变量构成的交互汇总表来揭示变量间的联系。交互表的信息以图形的方式展示。主要适用于有多个类别的定类变量，可以揭示同一个变量的各个类别之间的差异，以及不同变量各个类别之间的对应关系。适用于两个或多个定类变量。

1. 类型

简单对应分析：对两个分类变量进行的对应分析

多重对应分析：对多个分类变量进行的对应分析（最优尺度）

连续型变量的分析和分类变量的分析，连续型变量可以先分箱后再进行对应分析。

2. 对应分析和列联表分析的关系

在对两个分类变量进行分析时，列联表是常用的方式，但如果变量分类水平较多，往往很难直观地发现分类水平之间的相互联系，为此会使用对应分析方法来处理这个问题。
对应分析是用于寻求列联表的行和列之间的关系的一种低维图形表示法，它可以从直觉上揭示同一分类变量的各个类别之间的差异，以及不同分类变量各个类别之间的对应关系。

在对应分析中，列联表的每一行对应（通常是二维）图中的一点，每一列也对应同一图中的一点。本质上，这些点都是列联表的各行各列向一个二维欧式空间的投影，这种投影最大限度的保持了各行或各列之间的关系。

3. 对应分析和列联表分析的关系

对应分析是在主成分法基础上发展起来的一种技术，其通过对列联表进行转换，使得行与列各自的特征值分别相等，分别对行与列进行主成分分解时，可以使得各自的协方差矩阵的特征值相等，使用特征值的平方根对主成分方向的数据进行加权，保证了行与列可以在同一尺度下进行比较。

4.对应图的解读方法

1-总体观察：
2-观察邻近区域
3-向量分析——偏好排序
4-向量的夹角——余弦定理

5-从距离中的位置看

6-坐标轴定义和象限分析

7-产品定位：理想点与反理想点模型

8-市场细分和定位

http://shenhaolaoshi.blog.sohu.com/133694659.html

5.优缺点

简单对应分析的优点：
定性变量划分的类别越多，这种方法的优势越明显。

揭示行变量类别间与列变量类别间的联系。

将类别联系直观地表现在二维图形中（对应图）。

可以将名义变量或次序变量转变为间距变量。
简单对应分析的缺点：

不能用于相关关系的假设检验。

维度要由研究者决定。

有时候对应图解释比较困难。

对极端值比较敏感。

五、多维尺度分析

多维尺度分析（MDS)，是基于研究对象之间的相似性或距离，将研究对象在一个低维（二维或三维）的空间形象地表示出来，进行聚类或维度分析的一种图示法。通过多维尺度分析所呈现的空间定位图，能简单明了地说明各研究对象之间的相对关系。

1.相似性或距离测量

多维尺度分析用于衡量样本间相异性（距离）或相似性程度。由于变量类型的不同，样本间的距离或相似性往往也需要采用不同的方法来衡量，比如闵可夫斯基距离、卡方距离、余弦相似度等等，应当熟知距离/相似性测量的原理和适用性，并正确使用。

技术分享

2、多维尺度分析原理

技术分享

3、多维尺度分析的应用

在市场研究领域主要研究消费者的态度，衡量消费者的知觉及偏好。涉及的研究对象非常广泛，例如：汽车、洗头水、饮料、快餐食品、香烟和国家、企业品牌、政党候选人等。通过MDS分析能够为市场研究提供有关消费者的知觉和偏好信息在市场研究领域主要研究消费者的态度，衡量消费者的知觉及偏好。

在需要比较样本间相异性或相似性的场合下，可以使用多维尺度分析，例如比较不同品牌/产品间相似性，用以寻找潜在的竞争对手。最终的结果往往是在二维感知图上来展示。

因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系，即将相关比较密切的几

个变量归在同一类中，每一类变量就成为一个因子（之所以称其为因子，是因为它是不可观测的，即不是

具体的变量），以较少的几个因子反映原资料的大部分信息。

4、多维尺度分析与对应分析的区别

多维尺度分析描述的是行变量之间的关系，对应分析是描述行变量和列变量之间的关系。

数据分析及建模

标签：

原文地址：http://blog.csdn.net/back_to_dream/article/details/51461149

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行