谱聚类(Spectral Clustering, SC)

时间：2014-10-19 21:14:49 阅读：258 评论：0 收藏：0 [点我收藏+]

标签：style blog http io ar 使用 strong sp 数据

谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图，使子图内部尽量相似，而子图间距离尽量距离较远，以达到常见的聚类的目的。其中的最优是指最优目标函数不同，可以是割边最小分割——如图1的Smallest cut(如后文的Min cut)，也可以是分割规模差不多且割边最小的分割——如图1的Best cut(如后文的Normalized cut)。

图1 谱聚类无向图划分——Smallest cut和Best cut

这样，谱聚类能够识别任意形状的样本空间且收敛于全局最优解，其基本思想是利用样本数据的相似矩阵(拉普拉斯矩阵)进行特征分解后得到的特征向量进行聚类。

1 理论基础

对于如下空间向量item-user matrix：

如果要将item做聚类，常常想到k-means聚类方法，复杂度为o(tknm)，t为迭代次数，k为类的个数、n为item个数、m为空间向量特征数：

1 如果M足够大呢？

2 K的选取？

3 类的假设是凸球形的？

4 如果item是不同的实体呢？

5 Kmeans无可避免的局部最优收敛？

……

这些都使常见的聚类问题变得相当复杂。

1.1 图的表示

如果我们计算出item与item之间的相似度，便可以得到一个只有item的相似矩阵，进一步，将item看成了Graph(G)中Vertex(V)，歌曲之间的相似度看成G中的Edge(E)，这样便得到我们常见的图的概念。（补充，相似矩阵：设A，B为n阶矩阵，如果有n阶可逆矩阵P存在，使得P^(-1)*A*P=B成立，则称矩阵A与B相似，记为A~B.）

对于图的表示(如图2)，常用的有：

邻接矩阵：E，e_ij表示v_i和v_i的边的权值，E为对称矩阵，对角线上元素为0，如图2-2。

（补充，邻接矩阵：（Adjacency Matrix）：是表示顶点之间相邻关系的矩阵。设G=(V,E)是一个图，其中V={v1,v2,…,vn}。G的邻接矩阵是一个具有下列性质的n阶方阵：

①对无向图而言，邻接矩阵一定是对称的，而且对角线一定为零（在此仅讨论无向简单图），有向图则不一定如此。

②在无向图中，任一顶点i的度为第i列所有元素的和，在有向图中顶点i的出度为第i行所有元素的和，而入度为第i列所有元素的和。

③用邻接矩阵法表示图共需要n^2个空间，由于无向图的邻接矩阵一定具有对称关系，所以扣除对角线为零外，仅需要存储上三角形或下三角形的数据即可，因此仅需要n（n-1）/2个空间。）

Laplacian矩阵：L = D – E，其中d_i (行或列元素的和)，如图2-3。（补充，laplacian matrix：L=D-A，D为图的度矩阵，A为图的邻接矩阵。）

图2 图的表示

1.2 特征值与L矩阵

先考虑一种最优化图像分割方法，以二分为例，将图cut为S和T两部分，等价于如下损失函数cut(S, T)，如公式1所示，即最小(砍掉的边的加权和)。

假设二分成两类，S和T，用q(如公式2所示)表示分类情况，且q满足公式3的关系，用于类标识。

那么：

其中D为对角矩阵，行或列元素的和，L为拉普拉斯矩阵。

由：

有:

1、 L为对称半正定矩阵，保证所有特征值都大于等于0；

2、 L矩阵有唯一的0特征值，其对应的特征向量为1。

离散求解q很困难，如果将问题松弛化为连续实数值，由瑞利熵的性质知其二将你型的最小值就是L的特征值们(最小值，第二小值，......，最大值分别对应矩阵L的最小特征值，第二小特征值，......，最大特征值，且极值q相应的特征向量处取得，请参见瑞利熵(Rayleigh quotient))。

写到此，不得不对数学家们致敬，将cut(S,T)，巧妙地转换成拉普拉斯矩阵特征值(向量)的问题，将离散的聚类问题，松弛为连续的特征向量，最小的系列特征向量对应着图最优的系列划分方法。剩下的仅是将松弛化的问题再离散化，即将特征向量再划分开，便可以得到相应的类别，如将图3中的最小特征向量，按正负划分，便得类{A,B,C}和类{D,E,F,G}。在K分类时，常将前K个特征向量，采用kmeans分类。

PS：

1、此处虽再次提到kmeans，但意义已经远非引入概念时的讨论的kmeans了，此处的kmeans，更多的是与ensemble learning相关，在此不述；

2、k与聚类个数并非要求相同，可从第4节的相关物理意义中意会；

3、在前k个特征向量中，第一列值完全相同(迭代算法计算特征向量时，值极其相近)，kmeans时可以删除，同时也可以通过这一列来简易判断求解特征值(向量)方法是否正确，常常问题在于邻接矩阵不对称。