Science上发表的超赞聚类算法（转）

时间：2014-08-28 19:33:05 阅读：301 评论：0 收藏：0 [点我收藏+]

标签：style blog http color io strong ar 数据 2014

作者(Alex Rodriguez, Alessandro Laio)提出了一种很简洁优美的聚类算法, 可以识别各种形状的类簇, 并且其超参数很容易确定.

算法思想

该算法的假设是类簇的中心由一些局部密度比较低的点围绕, 并且这些点距离其他有高局部密度的点的距离都比较大. 首先定义两个值: 局部密度以及到高局部密度点的距离 bubuko.com,布布扣 :

bubuko.com,布布扣

其中

bubuko.com,布布扣

bubuko.com,布布扣是一个截断距离, 是一个超参数.?所以相当于距离点i的距离小于的点的个数. 由于该算法只对的相对值敏感, 所以对dc的选择比较鲁棒, 一种推荐做法是选择使得平均每个点的邻居数为所有点的1%-2%.

bubuko.com,布布扣

对于密度最大的点, 设置 bubuko.com,布布扣 . 注意只有那些密度是局部或者全局最大的点才会有远大于正常的相邻点间距.

聚类过程

那些有着比较大的局部密度 bubuko.com,布布扣和很大的的点被认为是类簇的中心。局部密度较小但是δi较大的点是异常点。在确定了类簇中心之后，所有其他点/属于/距离其最近的类簇中心/所代表的类簇（我爱机器学习批注：原文是"assigned to the same cluster as its nearest neighbor of higher density"，比它的密度更大的最近邻的类别。感谢邓公@djvu9和各位留言的同学指出错误）. 图例如下: