聚类是数据挖掘非常重要的组成部分. 而大多数聚类算法都须要事先确定分类数目K. 而本文是在实际情况下确定分类数目K的上限.进而对数据样本进行自己主动分类. 首先介绍下最大最小距离算法: 设样本集为X{x(1),x(2).......} 1.选取随意一个样本作为第一个聚类中心 如z(1)=x(1) 2 ...
分类:
其他好文 时间:
2017-05-17 10:08:06
阅读次数:
230
1.K-均值聚类法的概述 之前在参加数学建模的过程中用到过这种聚类方法,但是当时只是简单知道了在matlab中如何调用工具箱进行聚类,并不是特别清楚它的原理。最近因为在学模式识别,又重新接触了这种聚类算法,所以便仔细地研究了一下它的原理。弄懂了之后就自己手工用matlab编程实现了,最后的结果还不错 ...
分类:
编程语言 时间:
2017-05-14 18:47:47
阅读次数:
301
一、概念 与传统的聚类算法(比如K-means)不同,Canopy聚类最大的特点是不需要事先指定k值(即clustering的个数),因此具有很大的实际应用价值。与其他聚类算法相比,Canopy聚类虽然精度较低,但其在速度上有很大优势,因此可以使用Canopy聚类先对数据进行“粗”聚类,得到k值后再 ...
分类:
编程语言 时间:
2017-05-13 14:19:48
阅读次数:
222
1.K-均值聚类法的概述之前在参加数学建模的过程中用到过这种聚类方法,但是当时只是简单知道了在matlab中如何调用工具箱进行聚类,并不是特别清楚它的原理。最近因为在学模式识别,又重新接触了这种聚类算法,所以便仔细地研究了一下它的原理。弄懂了之后就自己手工用matlab编..
分类:
编程语言 时间:
2017-05-09 11:29:10
阅读次数:
271
[聚类算法]K-means优缺点及其改进 【转】:http://blog.csdn.net/u010536377/article/details/50884416 K-means聚类小述 大家接触的第一个聚类方法,十有八九都是K-means聚类啦。该算法十分容易理解,也很容易实现。其实几乎所有的机器 ...
分类:
编程语言 时间:
2017-05-08 01:25:58
阅读次数:
364
一、聚类算法:from sklearn.cluster import KMeans (一)输入参数: (1)n_clusters:要分成的簇数也是要生成的质心数 类型:整数型(int) 默认值:8 n_clusters : int, optional, default: 8 The number o ...
分类:
其他好文 时间:
2017-05-04 12:08:26
阅读次数:
329
刚刚研究了Kmeans。Kmeans是一种十分简单的聚类算法。可是他十分依赖于用户最初给定的k值。它无法发现随意形状和大小的簇。最适合于发现球状簇。他的时间复杂度为O(tkn)。kmeans算法有两个核心点:计算距离的公式&推断迭代停止的条件。一般距採用欧式距离等能够随意。推断迭代停止的条件能够有: ...
分类:
编程语言 时间:
2017-04-28 20:30:15
阅读次数:
646
kmean均值算法是一种最常见的聚类算法。算法实现简单,效果也比较好。kmean算法把n个对象划分成指定的k个簇,每个簇中所有对象的均值的平均值为该簇的聚点(中心)。 k均值算法有如下五个步骤: ...
分类:
编程语言 时间:
2017-04-23 23:09:45
阅读次数:
262
在机器学习(Machine learning)领域。主要有三类不同的学习方法: 监督学习(Supervised learning)、 非监督学习(Unsupervised learning)、 半监督学习(Semi-supervised learning), 监督学习:通过已有的一部分输入数据与输出 ...
分类:
其他好文 时间:
2017-04-22 20:43:33
阅读次数:
305
在模式识别中,K均值算法主要用于分类数目已知的聚类,实现较为简单,算法目的清晰,属于较为简单的动态聚类算法之一。 算法中通过迭代判断前后两次算法的聚类中心是否一致,从而决定是否继续迭代(前后一致则退出算法,完成分类)。 下面的K均值算法的简单示例: ...
分类:
编程语言 时间:
2017-04-22 12:27:50
阅读次数:
304