标签:
一、聚类算法
1、常见的聚类算法(待)
二、K均值
1、步骤
(1)随机选取K个质心
(2)分别计算每个样本与这K个质心的距离,将样本分配到距其最近的簇
(3)对K个簇分别取均值,重新选择质心。所谓的取均值就是分别对每个特征取均值,这样就会计算出一个新的数据点,将此数据点作为质心
(4)重复(2)-(3),直至质心没有变化
2、如何选取K?(待)
3、如何提高聚类性能?
目标:在保持K不变的情况下提高簇的质量
(1)将具有最大SSE的簇一分为2
(2)之后再合并两个簇:
法1:合并最近的质心,求取每对质心之间的距离
法2:合并使得SSE增幅最小的质心,需要求取合并每对质心后SSE的值
三、二分k均值算法---对K均值的一种优化
1、步骤
(1)将所有数据点看成一个簇
(2)将该簇一分为2
(3)选择其中一个簇继续进行2分
(4)重复,直到簇的个数为K
2、如何选取进行划分的簇?
原则:最大程度降低误差平方和(SSE)----每个样本与质心距离的平方的总和
标签:
原文地址:http://www.cnblogs.com/naonaoling/p/4181490.html