码迷,mamicode.com
首页 > 其他好文 > 详细

k-means

时间:2019-07-07 12:45:04      阅读:64      评论:0      收藏:0      [点我收藏+]

标签:最大的   就是   一个   效果   计算   模型   bsp   png   误差   

聚类算法中最简单高效的。

利用邻近的信息来标注样本的类别。

重点:初始k个质心,重复迭代直到收敛。

欧式空间的样本,使用平方误差和作为目标函数。

1、优点

快,简单,效果还可以,适合高维

2、缺点

受初始质心的影响,k的选取也很关键

3、距离度量

曼哈顿,欧氏距离

4、k的选取

手肘:k越来越接近真实的类别数时,误差会越来越小,k超过真实的类别数时,增加k得到的聚合程度的回报越来越小,误差下降趋于平缓了,这个肘部对应的k值就是真实的聚类数。

计算轮廓系数:簇内样本i到其他样本的平均距离ai,样本i到簇另一簇的样本平均距离bi。

技术图片

交叉验证:

重复使用数据,训练出不同的模型,选择最优的模型对应的参数

5、kmeans何时停止

迭代次数设置,判定质心移动的距离

6、空聚类

选一个距离当前任何质心最远的点,消除对平方误差影响最大的点;或者找一个替补的质心。

如果噪点或孤立点过多,换算法,密度聚类。

 

k-means

标签:最大的   就是   一个   效果   计算   模型   bsp   png   误差   

原文地址:https://www.cnblogs.com/pacino12134/p/11145709.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!