最近看了一些矩阵和谱聚类的知识,特在此简单记录一下。详细可以先看下参考文献。
首先看到的是孟岩写的三篇<理解矩阵>.
一:理解矩阵(一)
1:传统书籍空间的定义:存在一个集合,在这个集合上定义某某概念,然后满足某些性质”,就可以被称为空间。孟的空间包含四点:(1). 由很多(实际上是无穷多个)位置点组成;(2). 这些点之间存在相对的关系;(3). 可以在空间中定义长度、角度;4.这个空间可以容纳运动,这里我们所说的运动是从一个点到另一个点的移动(变换),而不是微积分意义上的“连续”性的运动。其中第四点最为重要,容纳运动时空间的本质。
2:“空间”是容纳运动的一个对象集合,而变换则规定了对应空间的运动。
3:线性空间中的任何一个对象,通过选取基和坐标的办法,都可以表达为向量的形式。
4:在线性空间中,当你选定一组基之后,不仅可以用一个向量来描述空间中的任何一个对象,而且可以用矩阵来描述该空间中的任何一个运动(变换)。而使某个对象发生对应运动的方法,就是用代表那个运动的矩阵,乘以代表那个对象的向量。矩阵的本质是运动的描述。
二:理解矩阵(二)
1:所谓变换,其实就是空间里从一个点(元素/对象)到另一个点(元素/对象)的跃迁。矩阵是线性空间里的变换的描述
2:对于一个线性变换,只要你选定一组基,那么就可以找到一个矩阵来描述这个线性变换。换一组基,就得到一个不同的矩阵。所有这些矩阵都是这同一个线性变换的描述,但又都不是线性变换本身。
3:所谓相似矩阵,就是同一个线性变换的不同的描述矩阵。如同对同一对象的多个引用。
三:理解矩阵(三)
1:对象的变换等价于坐标系的变换。或者说:固定坐标系下一个对象的变换等价于固定对象所处的坐标系变换。
三篇矩阵系列让我们从直觉上再度理解了矩阵,形象深刻。第一篇可以说是初谈空间与矩阵;第二篇相当于矩阵再描述;第三篇则为矩阵等价于坐标系。
四:谱聚类
在谈及谱聚类的问题时,首先需要回顾一些数学知识。
1:正交矩阵。ATA=E,则A为正交矩阵。也就是A的行或者列向量为两两垂直的单位向量
2:正定矩阵。如果对于任意向量f,都有fTMf> 0, 则称M为正定矩阵。如果为大于等于0,则为半正定矩阵。
3:拉普拉斯矩阵:Laplace矩阵为图的度矩阵-图的邻近矩阵。它也是谱理论的基础。
其中:
3:谱聚类最初用于解决图的分割为题,图分割的目的是类间相似性最小,类内相似性最大。它是一个NP难解问题,它可以转换为最小化图的Laplace矩阵的特征值的问题,这个可以通过公式进行证明。如果分两类的话,此时最小的特征值所对应的特征向量中大于0的归属于一类,小于0的归属于另一类,就可以将图分割成为两部分了。
如果进行k分类,则需要得到k个最小的特征值所对应的特征向量(N×k),每列为一个特征向量,每行代表一个样本点,此时对它进行k-means聚类,就可以将N个点聚成k类了。
4:谱聚类用于实际样本空间,只需将每个样本看做图的一个顶点,再将样本点的距离通过函数映射为相似性,每个点与其它点相似和为度就可以进行谱聚类了。
5:优点:(1)谱聚类能在任意形状的样本空间上进行聚类,且收敛于全局最优点。而像k-means算法和EM算法是建立在凸球形的样本空间上,当样本空间不凸时,算法会陷入“局部”最优。
(2) 谱聚类只需要数据之间的相似度矩阵就可以了,而不必像K-means那样要求数据必须是 N 维欧氏空间中的向量。
(3)RatioCut方法只考虑了类间相似性最小,而normalizedCut不仅考虑了类间还考虑了类内的相似性。
五:谱哈希
待续.....
参考文献:
1:理解矩阵(一)http://blog.csdn.net/myan/article/details/647511
2:理解矩阵(二) http://blog.csdn.net/myan/article/details/649018
3:理解矩阵(三) http://blog.csdn.net/myan/article/details/1865397
4:july的http://blog.csdn.net/v_july_v/article/details/40738211从拉普拉斯矩阵说到谱聚类
5:机器学习中谱聚类方法的研究:http://lamda.nju.edu.cn/conf/MLA07/files/YuJ.pdf;
原文地址:http://blog.csdn.net/lu597203933/article/details/41945347