码迷,mamicode.com
首页 > 编程语言 > 详细

k-means算法总结

时间:2015-09-19 15:13:27      阅读:226      评论:0      收藏:0      [点我收藏+]

标签:

1.原理

  聚类是一种无监督学习的方法,其实质是依据某种距离度量,使得同一聚簇之间的相似性最大化,不同聚簇之间的相似性最小化,即把相似的对象放入同一聚簇中,把不相似的对象放到不同的聚簇中。聚类与分类不同,聚类的输入对象不需要带有类别标签,最后组成的分类是由使用的算法决定的。

在聚类中,k-means由于其简单、易实现的优点,被广泛使用。

  假设集合技术分享是d维向量空间中的集合,其中技术分享表示集合技术分享中的第i个对象(或称为"数据点"),设矩阵技术分享表示k个聚簇中心的集合,其中,技术分享表示第j个聚簇标识,向量技术分享用于表示每个数据点所属的聚簇。

  k-means算法是一种迭代的贪婪下降求解算法,其目标函数是非凸的,这也是造成只能得到局部最优解的原因,目标函数表达式如下:

技术分享

  算法的流程主要包括,首先我们随机选择集合技术分享中的k个点作为初始的聚簇中心,接着根据将集合技术分享中的每个点分配到距离它最近的聚簇中,最后根据每个聚簇中的数据点更新聚簇中心,如此反复地执行后两个步骤直到算法收敛。k-means算法就是通过迭代的方式,将集合技术分享中的数据点聚成k个类,其核心步骤主要有:

  1)将数据点分配到距离它最近的聚簇中心

  2)更新聚簇中心(取聚簇中每个数据点坐标的均值)

  算法的详细步骤如表1所示,

表1 k-means算法的具体步骤

技术分享

 

 

 

 2.缺陷

  k-means算法存在不少的缺陷,表2列出了k-means算法常见的缺陷以及解决的方法。

表2 k-means算法缺陷

技术分享

 

 

3.扩展

3.1核方法

  为了能处理形状复杂的聚簇,我们可以通过核方法提高k-means算法对于复杂数据的处理能力。我们知道聚簇边界在原空间中是非线性的,但是,如果是在核函数所隐含的高维空间中却可以线性的。

3.2加速的k-means

  k-means算法在处理超大数据时,存在时间过长的缺陷,所以针对这个缺点,提出了不少的改进算法。例如可以通过使用kd-树或者利用三角不等式,减少在重新划分聚簇这个步骤的计算量。

3.3柔性k-means

  柔性k-means是与刚性k-means相对的,刚性的k-means即基本的k-means算法,将每个数据点划分到唯一一个聚簇中。而在柔性的k-means算法中,将每个数据点依据概率赋给每个聚簇,即柔性k-means中,每个数据点都有一个权重(概率)向量,用来描述每个数据点属于每个聚簇的可能性。

 

 4.小结

  k-means算法使用简单的迭代将数据集聚成k个类,迭代的核心步骤有:(1)更新聚簇中心;(2)更新聚簇标识。尽管它有不少缺陷,但是其实现简单、移动、伸缩性良好等优点使得它成为聚类中最常用的算法之一。

 

参考文献

[1]Xindong Wu,Vipin Kumar.数据挖掘十大算法[M].北京:清华大学出版社.2014:19-30.

k-means算法总结

标签:

原文地址:http://www.cnblogs.com/xugenpeng/p/4821502.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!