在分类聚类算法中,时常需要计算两个变量(通常是向量的形式)的距离,即相似性度量。其中,距离度量的性质:非负性,自反性,对称性和三角不等式。
本文的目的就是对常用的相似性度量作一个总结。
本文目录:
1.欧氏距离
2.曼哈顿距离
3. 切比雪夫距离
4. 闵可夫斯基距离
5.标准化欧氏距离
6.马氏距离
7.余弦相似度
...
分类:
其他好文 时间:
2016-07-03 20:05:42
阅读次数:
785
算法的思想是初始选取M个种子点,将周围点的特征和种子点特征进行距离的测定,距离最小的点和该种子点归为一类。则可以分为M个类别,计算这些类别特征的质心作为新的种子点,再次分类,如此迭代n次后的结果便是聚类分割的结果。
K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了...
分类:
其他好文 时间:
2016-07-03 19:46:31
阅读次数:
170
2016-07-02 java简单实现聚类算法(以前的作业,想记录下的时候,貌似语法都忘记了,,,呜呜呜) 但是有一个小问题,,,,我其实每次迭代之后(就是达不到我的收敛标准之前【好纠结呀这句话,还打不到,还之前,OMG】,就是聚类中心的误差达不到指定小的时候),,,我虽然重新算了聚类中心,但是其实 ...
分类:
编程语言 时间:
2016-07-02 21:30:03
阅读次数:
329
聚类 和 k-means简单概括。 聚类是一种 无监督学习 问题,它的目标就是基于 相似度 将相似的子集聚合在一起。 k-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据它们的属性分为k个聚类,以便使得所获得的聚类满足: 同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。 k ...
分类:
编程语言 时间:
2016-06-30 19:42:20
阅读次数:
139
(期末考试快到了,所以比较粗糙,请各位读者理解。。) 一、 概念 DBSCAN是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。低密度区域中的点被视为噪声而忽略,因此DBSCAN不产生完全聚类。 二、 伪代码 1 将所有点标记为核心点、边界点和噪声点。 2 删除噪声点。 3 为距离在 ...
分类:
数据库 时间:
2016-06-26 11:36:47
阅读次数:
264
七月算法4月机器学习算法班课程笔记——No.10
前言 与回归与分类不同,聚类是无监督学习算法,无监督指的是只需要数据,不需要标记结果,试图探索和发现一些模式。比如对用户购买模式的分析、图像颜色分割等。聚类算法的提出比较早,是数据挖掘的一个重要模块,可以对大量数据分类并概括出每一类的特点。目前也有很多种聚类算法,包括划分法、层次法、基于密度的方法、基于网格的方法等。实际生产中,很少有只用聚类算法的...
分类:
编程语言 时间:
2016-06-24 15:22:21
阅读次数:
351
聚类算法(K-means)目的是将n个对象根据它们各自属性分成k个不同的簇,使得簇内各个对象的相似度尽可能高,而各簇之间的相似度尽量小。 而如何评测相似度呢,采用的准则函数是误差平方和(因此也叫K-均值算法): 其中,E是数据集中所有对象的平方误差和,P是空间中的点,表示给定对象,mi为簇Ci的均值 ...
分类:
编程语言 时间:
2016-06-20 22:03:28
阅读次数:
240
http://www.cnblogs.com/zhangchaoyang/articles/2200800.html BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)天生就是为处理超大规模(至少要让你的内存容不下) ...
分类:
编程语言 时间:
2016-06-15 15:42:33
阅读次数:
442
近邻法中计算距离需要遍历,带来很大的计算量和存储量,为了改善这两方面的性能,有人提出采用分枝界定算法(Branch-Bound Algorithm)来改进近邻法,主要分为两个阶段:1)利用人工划分或K-means聚类算法或其他动态聚类算法将样本集X划分成层级形式,形成一个树结构;2)利用树搜索算法找出与未知样本的k个近邻。
1.层级划分
1)将样本集X划分成l个子集,每个子集再分成l个子集,...
分类:
编程语言 时间:
2016-06-15 12:47:47
阅读次数:
423
根据《机器学习实战》一书第十章学习k均值聚类算法和二分k均值聚类算法,自己把代码边敲边理解了一下,修正了一些原书中代码的细微差错。目前代码有时会出现如下3种报错信息,这有待继续探究和完善。
报错信息:
Warning (from warnings module):
File "F:\Python2.7.6\lib\site-packages\numpy\core\_methods.py",...
分类:
编程语言 时间:
2016-06-12 01:54:08
阅读次数:
452