码迷,mamicode.com
首页 > 其他好文 > 详细

利用模拟退火提高Kmeans的聚类精度

时间:2015-06-28 14:14:23      阅读:464      评论:0      收藏:0      [点我收藏+]

标签:

 

1 Kmeans算法原理

K-MEANS算法:输入:聚类个数k,以及包含 n个数据对象的数据。输出:满足方差最小标准的k个聚类。
处理流程:        
1)  从 n个数据对象选择 k 个对象作为初始聚类中心;
2)  循环(3)到(4)直到每个聚类不再发生变化为止
3)  根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;
4)  重新计算每个(有变化)聚类的均值(中心对象)

1.1 Step 1

技术分享

1.2 Step 2

技术分享

1.3 Step 3

技术分享

1.4 Step 4

技术分享

1.5 Step 5

技术分享

2 K means的一种改进介绍

      K means的结果与初始点的选择密切相关,往往陷于局部最优。

技术分享

2.1 例子

  首先3个中心点被随机初始化,所有的数据点都还没有进行聚类,默认全部都标记为红色,如下图所示:

技术分享

  迭代最终结果如下:

  技术分享

       如果初始点为如下:

技术分享

  最终会收敛到这样的结果:

技术分享

3 解决方法

  目前解决方法较多,但没有测底的解决方法。一般来说用户的初始种子点都是随机给的,或者是基于目视的,即进行多次聚类操作,选取相对最优的那个聚类,但这种方法不够自动。目前,研究较多的是将模拟退火、遗传算法等启发式算法与Kmeans聚类相结合,这样能大大降低陷于局部最优的困境。下图就是模拟退火的算法流程图。

技术分享

4 实战 

  “纸上得来终觉浅,绝知此事要躬行”,仅知道原理而不去实践是永远不能深刻掌握某一知识的。本人用C++实现了基于模拟退火的Kmeans算法以及普通的Kmeans算法,来进行比较分析。

4.1 实验步骤

  1)首先我们随机生成二维数据点以便用于聚类。

技术分享

  2)基于原生的Kmeans得到的结果。

技术分享

  3)基于模拟退火的Kmeans得到的结果

技术分享

4.2 结论

  由上图的实验结果可以看出,基于模拟退火的K means所得的总体误差准则结果为:Jsa = 19309.9。

  而普通的K means所得的总体误差准则结果为:Jnor = 23678.8。

  可以看出基于模拟退火的K means所得的结果较好,当然,此算法的复杂度较高,收敛所需的时间较长。

利用模拟退火提高Kmeans的聚类精度

标签:

原文地址:http://www.cnblogs.com/LBSer/p/4605440.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!