码迷,mamicode.com
首页 > 其他好文 > 详细

K-Means

时间:2014-12-24 06:22:26      阅读:145      评论:0      收藏:0      [点我收藏+]

标签:

一、聚类算法

1、常见的聚类算法(待)

二、K均值

1、步骤

(1)随机选取K个质心

(2)分别计算每个样本与这K个质心的距离,将样本分配到距其最近的簇

(3)对K个簇分别取均值,重新选择质心。所谓的取均值就是分别对每个特征取均值,这样就会计算出一个新的数据点,将此数据点作为质心

(4)重复(2)-(3),直至质心没有变化

2、如何选取K?(待)

3、如何提高聚类性能?

目标:在保持K不变的情况下提高簇的质量

(1)将具有最大SSE的簇一分为2

(2)之后再合并两个簇:

  法1:合并最近的质心,求取每对质心之间的距离

  法2:合并使得SSE增幅最小的质心,需要求取合并每对质心后SSE的值

三、二分k均值算法---对K均值的一种优化

1、步骤

(1)将所有数据点看成一个簇

(2)将该簇一分为2

(3)选择其中一个簇继续进行2分

(4)重复,直到簇的个数为K

2、如何选取进行划分的簇?

原则:最大程度降低误差平方和(SSE)----每个样本与质心距离的平方的总和

 

K-Means

标签:

原文地址:http://www.cnblogs.com/naonaoling/p/4181490.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!