K-means矢量量化算法介绍

时间：2015-01-31 21:46:31 阅读：290 评论：0 收藏：0 [点我收藏+]

标签：

K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。

K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。matlab中有kmeans聚类算法的函数可以调用，如[ldx,C,sumD,D]=kmeans(X,k)（详见matlab help kmeans）。以下链接是一个用java写的聚类演示K-means demo。

对于该算法存在的缺点可以使用ISODATA（迭代自组织数据分析算法)来确定聚类数目K，使用K-means++算法或者遗传算法（GA)来选择初始中心。

K-means算法流程：

1.初始化：选择合适的方法设置K个初始的码本中心z_i，1<=i<=K;

2.最近邻分类：将训练数据矢量x_t按照最近邻原则分配到最近的码本z_i中，此步骤中可以采用欧式距离、马氏距离等。

3.码本更新：将所有的训练数据分配到离其最近的码本后，生成新的质心，即新的码本。

4.重复2、3直到相邻的迭代误差满足阈值要求。

ISODATA算法：

isodata(跌代自组织分析)，通过设定初始参数使用归并与分裂的机制。当某两类聚类中心距离小于某一阈值时，将它们合并为一类；当某类标准差大于某一阈值或其样本数目超过某一阈值时，将其分为两类；在某类样本数目少于某阈值时，需将其取消。

K-means++算法流程：

1.给定初始点的集合D

2.随机从点集D中选择一个点作为初始的中心点

3.计算每一个点到最近中心点的距离Si