聚类分析

时间：2015-02-03 10:50:08 阅读：239 评论：0 收藏：0 [点我收藏+]

标签：

聚类分析（Cluster Analysis）

一、聚类分析与判别分析

? 判别分析：已知分类情况，将未知个体归入正确类别

? 聚类分析：分类情况未知，对数据结构进行分类

二、Q型和R型聚类

Q型是对样本进行分类处理，其作用在于:

1.能利用多个变量对样本进行分类

2.分类结果直观，聚类谱系图能明白、清楚地表达其数值分类结果

3.所得结果比传统的定性分类方法更仔细、全面、合理

R型是对变量进行分类处理，其作用在于：

1.能够了解变量间及变量组合间的亲疏关系

2.能够依据变量的聚类结果及它们之间的关系，选择主要变量进行回归分析或Q型聚类分析

三、聚类过程

1.数据预处理（标准化）

2.构造关系矩阵（亲疏关系的描写叙述）

3.聚类（依据不同方法进行分类）

4.确定最佳分类（类别数）

3.1标准化：

3.1.1为什么要做标准化：指标变量的量纲不同或数量级相差非常大，为了使这些数据能放到一起加以比較，常需做变换。

3.1.2相关说明：如果有N个样本1,2，…n，每一个样本有m项指标x1,x2,…，xm,用xij表示第i个样品第j个指标的值，则可得到样品数据矩阵。技术分享

均值表示为，标准差为，极差为

3.1.3 经常用法

1)Z Scores：标准化变换

作用：变换后的数据均值为0，标准差为1，消去了量纲的影响；当抽样样本改变时，它仍能保持相对稳定性。

2)Range –1 to 1：极差标准化变换

作用：变换后的数据均值为0，极差为1，且|xij*|<1，消去了量纲的影响；在以后的分析计算中能够降低误差的产生。

3)Maximum magnitude of 1

作用：变换后的数据最大值为1。

4)Range 0 to 1（极差正规化变换 / 规格化变换）

作用：变换后的数据最小为0，最大为1，其余在区间[0，1]内，极差为1，无量纲。

5)Mean of 1

作用：变换后的数据均值为1。

6)Standard deviation of 1

作用：变换后的数据标准差为1。

3.2构造关系矩阵

3.2.1描写叙述变量或样本的亲疏程度的数量指标有两种：

?相似系数——性质越接近的样品，相似系数越接近于1或-1；彼此无关的样品相似系数则接近于0，聚类时相似的样品聚为一类

?距离——将每个样品看作m维空间的一个点，在这m维空间中定义距离，距离较近的点归为一类。

3.2.2距离定义方式:

l）欧氏(Euclidean)距离

用途：聚类分析中用得最广泛的距离

但与各变量的量纲有关，未考虑指标间的相关性，也未考虑各变量方差的不同

2）切比雪夫(Chebychev)距离

3）明氏(Minkowski)距离

4)夹角余弦

用途：计算两个向量在原点处的夹角余弦。当两夹角为0o时，取值为1，说明极相似；当夹角为90o时，取值为0，说明两者不相关。

取值范围：0~1

5)Pearson相关系数

6)Block：绝对值距离（一阶Minkowski度量）

3. 选择聚类方法

1)系统聚类法（又称谱系聚类,实际应用中使用最多）。

2) 调优法（如动态聚类法）

3）模糊聚类、图论聚类、聚类预报等。

3.1系统聚类法

3.1.1系统聚类法的基本思想：令n个样品自成一类，计算出相似性測度，此时类间距离与样品间距离是等价的，把測度最小的两个类合并；然后依照某种聚类方法计算类间的距离，再按最小距离准则并类；这样每次降低一类，持续下去直到全部样品都归为一类为止。聚类过程可做成聚类谱系图(Hierarchical diagram)。

3.1.2步骤：

s1.构造n个类，每一个类包括且仅仅包括一个样品。

s2.计算n个样品两两间的距离，构成距离矩阵，记作D0。

s3.合并距离近期的两类为一新类。

s4.计算新类与当前各类的距离。若类的个数等于1，转到步骤(5)，否则回到步骤(3)。

s5.画聚类图。

s6.决定类的个数，及各类包括的样品数，并对类作出解释。

3.1.3 方法：

l最短距离法(single linkage)

l最长距离法(complete linkage)

l中间距离法(median method)

l可变距离法(flexible median)

l重心法(centroid)

l类平均法(average)

l可变类平均法(flexible average)

lWard最小方差法(Ward’s minimum variance)

a)Between-groups linkage 组间平均距离连接法

方法简述：合并两类的结果使全部的两两项对之间的平均距离最小。（项对的两成员分属不同类）

b)Within-groups linkage 组内平均连接法

方法简述：两类合并为一类后，合并后的类中全部项之间的平均距离最小

c)Nearest neighbor 近期邻法（最短距离法）

方法简述：首先合并近期或最相似的两项

特点：样品有链接聚合的趋势，这是其缺点，不适合一般数据的分类处理，除去特殊数据外，不提倡用这样的方法。

d)Furthest neighbor 最远邻法（最长距离法）

方法简述：用两类之间最远点的距离代表两类之间的距离，也称之为全然连接法

e)Centroid clustering 重心聚类法

方法简述：两类间的距离定义为两类重心之间的距离，对样品分类而言，每一类中心就是属于该类样品的均值

特点：该距离随聚类地进行不断缩小。该法的谱系树状图非常难跟踪，且符号改变频繁，计算较烦。

f)Ward’s method 离差平方和法

方法简述：基于方差分析思想，假设分类合理，则同类样品间离差平方和应当较小，类与类间离差平方和应当较大

特点：实际应用中分类效果较好，应用较广；要求样品间的距离必须是欧氏距离。

3.2高速聚类

3.2.1方法：

四、谱系分类的确定

分类准则：

A.不论什么类都必须在临近各类中是突出的，即各类重心间距离必须极大

B.确定的类中，各类所包括的元素都不要过分地多

C.分类的数目必须符合有用目的

D.若採用几种不同的聚类方法处理，则在各自的聚类图中应发现同样的类

学习小结：

聚类的关键：

1）用什么指标(变量)表达要分析的样品？

2）标准化方法

3）选择聚类方法

4）用什么统计量(距离、相似系数)描写叙述样本间的相似程度？

5）用什么方法(类间距离等)进行聚类？

6）分成几类比較合适？

聚类分析

标签：

原文地址：http://www.cnblogs.com/gcczhongduan/p/4269282.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行