标签:pga svd 例子 聚类 文章 选择 层次聚类 顺序 通用
本系列意在长期连载分享,内容上可能也会有所删改;
因此如果转载,请务必保留源地址,非常感谢!
博客园:http://www.cnblogs.com/data-miner/(暂时公式显示有问题)
其他:建设中…
通过前面阅读K-means相关论文,大致能梳理出K-means算法发展过程中的一些轨迹。由于本人所阅读的仅仅是一部分,因此还会有更多的方面,欢迎大家补充(补充时请给出具体例子)。
K-means由于简单有效被大量的用于数据预处理、数据分析等。在K-means被实际应用的过程中,大家也逐渐发现它本身存在很多的问题。如:
其中每个问题都有作者分析,并尝试提出解决办法:
以下我们对其中两点(“类别数量估计”,“初始化聚类中心”)进行更多的介绍
估计类别数量,现在还没有很通用的方法。以下介绍常见的估计类别数量的一些方式
数据的先验知识,或者数据进行简单分析能得到
基于变化的算法:即定义一个函数,认为在正确的K时会产生极值。
基于结构的算法:即比较类内距离、类间距离以确定K。
基于一致性矩阵的算法:即认为在正确的K时,不同聚类的结果会更加相似,以此确定K。
基于层次聚类:即基于合并或分裂的思想,在一定情况下停止获得K。
基于采样的算法:即对样本采样,分别做聚类;根据这些结果的相似性确定K。
接下来介绍几个看到的初始化聚类中心的方法。需要强调的是,在任何场景下都合适的方法是不存在的。理想情况应该是针对数据的特点,挑选或设计出适合的方法。
ING。。。
标签:pga svd 例子 聚类 文章 选择 层次聚类 顺序 通用
原文地址:http://www.cnblogs.com/data-miner/p/6288229.html