非负矩阵分解（4）：NMF算法和聚类算法的联系与区别

时间：2017-04-15 14:38:55 阅读：483 评论：0 收藏：0 [点我收藏+]

作者：桂。

时间：2017-04-14 06:22:26

链接：http://www.cnblogs.com/xingshansi/p/6685811.html

声明：欢迎被转载，不过记得注明出处哦~

技术分享

前言

之前梳理了一下非负矩阵分解（Nonnegative matrix factorization, NMF），主要有：

　　1）准则函数及KL散度

　　2）NMF算法推导与实现

　　3）拉格朗日乘子法求解NMF（将含限定NMF的求解一般化）

谱聚类可以参考之前的文章：

　　1）拉普拉斯矩阵（Laplace Matrix）与瑞利熵（Rayleigh quotient）

　　2）谱聚类（Spectral clustering）（1）：RatioCut

　　3）谱聚类（Spectral clustering）（2）:NCut

总感觉NMF跟聚类有联系，这里试着从聚类角度分析一下非负矩阵分解，主要包括：

　　1）Kmeans与谱聚类

　　2）对称非负矩阵分解（symmetric NMF，SyNMF）;

　　3）非对称非负矩阵分解;

内容为自己的学习总结，如果有不对的地方，还请帮忙指出。文中多有借鉴他人的地方，最后一并给出链接。

一、Kmeans与谱聚类

　　A-Kmeans定义

，准则函数为：

技术分享

可以重写为：

技术分享

定义h：

技术分享

$n_k$为第k类样本的个数，则准则函数变为：

技术分享

从而Kmeans的优化问题，等价于：

　　B-Kmeans与谱聚类（Spectral clustering）的联系

上文给出了h的定义：

技术分享

回顾谱聚类中RatioCut定义h的思路：

技术分享

回顾RatioCut求解问题：

技术分享

可以看出求解的思路完全一致，不同的是RatioCut是拉普拉斯矩阵L，而Kmeans是矩阵$X^TX$。正因为这点不同，Kmeans在利用谱聚类的思路求解时，略有差别。利用Kmeans的思想求Kmeans，听着这不是欠揍吗？这里只是为了分析谱聚类一般方法（L）与谱聚类对应的Kmeans（$X^TX$）二者的不同。

再次写出RatioCut的步骤：

步骤一：求解拉普拉斯矩阵L

步骤二：对L进行特征值分解，并取K个最小特征值对应的特征向量（K为类别数目）

步骤三：将求解的K个特征向量（并分别归一化），构成新的矩阵，对该矩阵进行kmeans处理

kmeans得到的类别标签，就是原数据的类别标签，至此完成RatioCut聚类。

对应Kmeans呢？是不是把$X^TX$换成L就等价于对原数据Kmeans?

步骤一：求解$X^TX$

步骤二：对$X^TX$进行特征值分解，并取K个最大特征值对应的特征向量（K为类别数目）

步骤三：将求解的K个特征向量（并分别归一化），构成新的矩阵，对该矩阵进行kmeans处理

kmeans得到的类别标签，就是原数据的类别标签，至此完成RatioCut聚类。

对应测试code:

L = X‘*X;% matrix
%%Step2:Eigenvalues decomposition
K = 3;
[Qini,V] = eig(L);
%%Step3:New matrix Q
[~,pos] = sort(diag(V),‘ascend‘);
Q = Qini(:,pos(1:K));
Q = Q./repmat(sqrt(diag(Q‘*Q)‘),N,1);
[idx,ctrs] = kmeans(Q,K);

我们可以利用数据测试一下：

技术分享

再来看看直接对原数据Kmeans的结果：

技术分享

利用谱聚类的思想求解，得出了错误的分类结果，而直接Kmeans效果是理想的。

原因何在？问题就出在矩阵L上。回顾之前提到的拉普拉斯矩阵L特性：

技术分享

它表示的是不同数据点特征的差距，而$X^TX$呢？

技术分享

更像是一种余弦距离的测度，普通的Kmeans自然不能很好解决聚类。其实对$X^TX$利用谱聚类，特征向量子空间是严谨的，以三类为例，将特征子空间投影到二维，如下图中间所示，很容易看出子空间特征是分成三类的，但聚类之后呢？如右图所示，就出现了判别错误。这也是为什么上面两种结果不一致。

技术分享

总而言之：Kmeans是与谱聚类的思想一致，但由于中间矩阵不同，二者思路略有差异。

技术分享

　　C-Kernel Kmeans与谱聚类

这里就再啰嗦一下，数据分类效果不理想，映射到高维呢？也就是核函数（Kernel function）的思想。

重新写出谱聚类框架下的Kmeans：

对X进行映射：，得出核函数下的Kmeans(Kernel Kmeans)

技术分享

重新给出code(以kernel 取gaussian为例):

%Kmeans
L = X*X‘;
sigma2 = 500;
L = exp(-X*X‘/2/sigma2);
[Qini,V] = eig(L);
%%Step3:New matrix Q
[~,pos] = sort(diag(V),‘descend‘);
Q = Qini(:,pos(1:K));
for i =1:K
    Q(:,i) = Q(:,i)-min(Q(:,i));
end
Q = Q./repmat(sqrt(diag(Q‘*Q)‘),K*N,1);
[idx,ctrs] = kmeans(Q,K);

　　对应分类结果：

技术分享

这个时候分类就理想了。

二、对称非负矩阵分解（SyNMF）

　　A-原理介绍

Kmeans与RatioCut的理论框架是统一的，其实准则函数等价为：

技术分享

现在将$H^TH = I$的约束去掉，泛化后的求解问题为：

这就是对称非负矩阵分解（SyNMF）的思路。

　　B-算法求解

求解思路还是利用拉格朗日乘子+KKT，不再细说，给出结果：

技术分享

泛化后：

技术分享

得到H之后，如何实现数据的label判别？

技术分享

可以看出得到的H分为三类，对应三种label, 即可实现数据分离。

给出SymNMF与谱聚类的对比：

技术分享

对应的code可以点击这里。

给出一个测试结果图，测试数据为三类：

技术分享

三、非对称非负矩阵分解

SymNMF是Spectral clustering的泛化推广。

上文分析的是对称的谱聚类问题：

Spectral clustering

技术分享

SymNMF

技术分享

同样的方式，分析非对称的谱聚类问题：

Spectral clustering

技术分享

该问题可以转化为：

技术分享

同样的，对于：

技术分享

进行泛化：

这就是NMF的准则函数，即：

技术分享

现在来总结一下：

技术分享

关系是不是一目了然了？如何添加更多约束项呢？比如希望H矩阵尽可能系数等等，就在上面这几类问题的准则函数后添加约束，转化成对偶问题求解即可。

题外话

　　A-非负矩阵NMF实现数据聚类

分析了这么多，已经解开了之前的困惑：谱聚类与NMF之间的联系。

回顾上面分析Kmeans提到的三类数据聚类问题，对$XX^T$进行NMF处理：

技术分享

更直观地，将数据放在对应维度观察：

技术分享

可以看到，由于矩阵对称，即figure对称，对W/H聚类，都可以得到三类标签，从而实现数据的聚类。对于非对称呢？自然想到：如果W对应样本数量维度，则对W进行聚类，如果H对应样本数量维度，就对H进行聚类，同样可以实现数据聚类。

　　B-图的聚类（不再是数据的聚类）

上文分析的是对数据点进行分类，如果直接对邻接矩阵、拉普拉斯矩阵，也就是图片信息进行分类呢？（可能有点绕，但数据点聚类，并不代表图就是聚类，图明显可以聚类，对应的数据点也未必可以聚类）。

技术分享

图对应的矩阵，如拉普拉斯矩阵、邻接矩阵等等，说到底都是figure的表达，如上图所示，因此上文分析的矩阵W/B，可以用图片的信息替代。

对于图的聚类，一种思路是将图中像素点读取，转化成数据格式，再进行聚类。

技术分享

Data角度就是前面分析的种种类型，Figure角度呢？

给出NMF对图片的处理结果（分四类）：

对应code:

img = imread(‘2.png‘);
V = 1-im2bw(rgb2gray(img));
figure
K = 4;
Iter = 500;
[W,H] = nmf(V, K, Iter);
subplot 331
mesh(V);
title(‘原数据‘)

for i =1:K
    subplot(3,3,i+1);
    mesh(W(:,i)*H(i,:));
    title([‘分解‘,num2str(i)])
end

技术分享