标签:
顾名思义,这个算法是与K相关的一个方法,事实也是如此。
对于一个大的集群,该方法通过对以下三步的不停迭代得出结果:
确定K值,K值表示需要将这个大的集群分成多少个小的簇(聚类)。然后虚拟K个中心位于集群坐标系内。
计算集群坐标系内所有点与K个中心点的位置,将距离中心点最近的点划归一簇。
根据每一簇的所有点计算这一簇的重心,将其作新的K个中心点重复这一过程。
为何要迭代
经过证明,算法是必然收敛的。意思也就是说,在N次迭代后,K个中心点都趋于稳定,不会发生大的变动。
缺点
不适合在坐标系中呈现形状怪异的集群
不适合有属性参数间距过大的集群
标签:
原文地址:http://my.oschina.net/sitan/blog/425190