当我们在谈论kmeans（5）

时间：2017-01-16 00:56:10 阅读：148 评论：0 收藏：0 [点我收藏+]

本系列意在长期连载分享，内容上可能也会有所删改；
因此如果转载，请务必保留源地址，非常感谢！
博客园：http://www.cnblogs.com/data-miner/（暂时公式显示有问题）
其他：建设中…

当我们在谈论kmeans：总结

　　通过前面阅读K-means相关论文，大致能梳理出K-means算法发展过程中的一些轨迹。由于本人所阅读的仅仅是一部分，因此还会有更多的方面，欢迎大家补充（补充时请给出具体例子）。

K-means算法的提出
对K-means算法的性质进行分析的文章相继发出
对K-means算法思想进行扩展：
- 有作者提出“Maximum Entropy”算法，并表示K-means为其一种特殊形式
- 后又有作者提出“Mean Shift”算法，并表示“Maximum Entropy”也是其特殊形式
针对K-means缺陷，对K-means算法进行修改（一般仅适用于某场景）：
- 提出online的K-means
- 提出针对非凸数据集的K-means
- 提出应用在FPGA中的K-means
- 提出自动对特征进行加权的K-means
- Intelligent K-means算法使用异常检测的思想聚类
对K-means算法进行优化：
- KD树加速的K-means
- 利用SVD分解加速K-means
- K-means++的初始化聚类中心算法
将K-means与新提出的思想融合：
- 结合Ensembling与K-means

K-means由于简单有效被大量的用于数据预处理、数据分析等。在K-means被实际应用的过程中，大家也逐渐发现它本身存在很多的问题。如：

其中每个问题都有作者分析，并尝试提出解决办法：

以下我们对其中两点（“类别数量估计”，“初始化聚类中心”）进行更多的介绍

估计类别数量，现在还没有很通用的方法。以下介绍常见的估计类别数量的一些方式

接下来介绍几个看到的初始化聚类中心的方法。需要强调的是，在任何场景下都合适的方法是不存在的。理想情况应该是针对数据的特点，挑选或设计出适合的方法。

K-means++已经被证明是一种简单、好用的方法
先计算整体样本中心，然后根据样本点到中心的距离，由近至远均匀采样作为初试聚类中心
初步将数据分成K个区域，将每个区域中心作为初始聚类中心
计算出每个点的”密度“，认为”密度“较大的是聚类中心。先把”密度“最大的挑出作为第一个聚类中心，从剩下的点中找出密度最大，且离所有已有聚类中心大于一定距离的点作为下一个聚类中心，直到选择了K个
计算整体均值，作为第一个聚类中心。从剩下的点中顺序寻找，当遇到离所有已有聚类中心大于一定距离的点，则作为下一个聚类中心，直到选择了K个

ING。。。

原文地址：http://www.cnblogs.com/data-miner/p/6288229.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行