利用模拟退火提高Kmeans的聚类精度

时间：2015-06-28 14:14:23 阅读：464 评论：0 收藏：0 [点我收藏+]

标签：

1 Kmeans算法原理

K-MEANS算法:输入：聚类个数k，以及包含 n个数据对象的数据。输出：满足方差最小标准的k个聚类。
处理流程：        
（1）  从 n个数据对象选择 k 个对象作为初始聚类中心；
（2）  循环（3）到（4）直到每个聚类不再发生变化为止
（3）  根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；
（4）  重新计算每个（有变化）聚类的均值（中心对象）

1.1 Step 1

技术分享

1.2 Step 2

技术分享

1.3 Step 3

技术分享

1.4 Step 4

技术分享

1.5 Step 5

技术分享

2 K means的一种改进介绍

K means的结果与初始点的选择密切相关，往往陷于局部最优。

技术分享

2.1 例子

　　首先3个中心点被随机初始化，所有的数据点都还没有进行聚类，默认全部都标记为红色，如下图所示：

技术分享

　　迭代最终结果如下：

　　技术分享

如果初始点为如下：

技术分享

　　最终会收敛到这样的结果：

技术分享

3 解决方法

　　目前解决方法较多，但没有测底的解决方法。一般来说用户的初始种子点都是随机给的，或者是基于目视的，即进行多次聚类操作，选取相对最优的那个聚类，但这种方法不够自动。目前，研究较多的是将模拟退火、遗传算法等启发式算法与Kmeans聚类相结合，这样能大大降低陷于局部最优的困境。下图就是模拟退火的算法流程图。

技术分享