聚类分析初探第一章 引言第二章 预备知识第三章 直接聚类法第四章 K-means第五章 DBSCAN第六章 OPTICS第七章聚类分析的效果评测第八章数据尺度化问题发表在 Science 上的一种新聚类算法 本文摘自中国科学院计算技术研究所周昭涛的硕士论文《文本聚类分析效果评价及文本表示研究》的.....
分类:
其他好文 时间:
2015-08-16 13:32:56
阅读次数:
200
各种聚类算法的比较 聚类的目标是使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法和用于高维度的聚类算法。摘自 数据挖掘中的聚类分析研究综述 这篇...
分类:
编程语言 时间:
2015-08-14 18:48:43
阅读次数:
163
DBSCAN算法介绍DBSCAN是一个基于密度的聚类算法,该算法包括几个重要的概念:核心对象,直接密度可达,密度可达,密度相连,这几个概念是层层递进的关系。概念核心对象:在ε范围内邻居点大于等于Minpt的对象,其中ε和Minpt为用户定义的参数。直接密度可达:设p为核心对象,|q,p| <= ε,...
分类:
数据库 时间:
2015-08-14 13:09:21
阅读次数:
183
在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法.令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量,1.欧...
分类:
其他好文 时间:
2015-08-09 15:27:47
阅读次数:
178
在今年的全球用户大会上,Esri官方公布了R-ArcGIS的官方示例,在ArcMap和ArcGIS
pro中,直接通过Toolbox可以调用R的分析工具包,将R的分析能力直接作用在ArcGIS上面。打通了两大工具之间的壁垒,不能不说,是分析界的一大盛事啊。
视频截图如下:
总所周知,R在数据分析领域的地位,犹如JAVA在编程语言领域的地位,简直就占据了开源软件的头把交椅...
分类:
其他好文 时间:
2015-08-07 11:04:29
阅读次数:
2935
聚类--简介 主要包括如下几方面的内容:常见聚类方法简介;聚类的方法有如下几种:基于层次的聚类;基于网格的聚类;基于密度的聚类;基于图论的聚类;基于距离的聚类;灰色聚类;模糊等价关系聚类;基于关键词搜索的网页聚类1、层次聚类算法1.1聚合聚类1.1.1相似度依据距离不同:Single-Link:最近...
分类:
其他好文 时间:
2015-08-02 10:10:24
阅读次数:
216
《机器学习实战》之K-均值聚类算法的python实现最近的项目是关于“基于数据挖掘的电路故障分析”,项目基本上都是师兄们在做,我只是在研究关于项目中用到的如下几种算法:二分均值聚类、最近邻分类、基于规则的分类器以及支持向量机。基于项目的保密性(其实也没有什么保密的,但是怕以后老板看到我写的这篇博文,所以,你懂的),这里就不介绍“基于数据挖掘的电路故障分析”的思路了。废话不多说了,开始正题哈。...
分类:
编程语言 时间:
2015-07-28 23:20:37
阅读次数:
646
《机器学习实战》之二分K-均值聚类算法的python实现上面博文介绍了K-均值聚类算法及其用python实现,上篇博文中的两张截图,我们可以看到,由于K-均值聚类算法中由于初始质心的选取,会造成聚类的局部最优,并不是全局最优,因此,会造成聚类的效果并不理想,为克服K-均值算法收敛于局部最小值的问题,就有了二分K-均值算法。二分K-均值聚类算法二分K均值算法是基本K均值算法的直接扩充,其基本思想是:为...
分类:
编程语言 时间:
2015-07-28 23:16:26
阅读次数:
328
(一)原理部分模糊C均值(Fuzzy C-means)算法简称FCM算法,是一种基于目标函数的模糊聚类算法,主要用于数据的聚类分析。理论成熟,应用广泛,是一种优秀的聚类算法。本文关于FCM算法的一些原理推导部分介绍等参考下面视频,加上自己的理解以文字的形式呈现出来,视频参考如下,比较长,看不懂的可以再去看看:FCM原理介绍FCM分析1
FCM分析2
FCM分析3首先介绍一下模糊这个概念,所谓模糊...
分类:
编程语言 时间:
2015-07-27 18:59:44
阅读次数:
464
Affinity Propagation (AP) 聚类是2007年在Science杂志上提出的一种新的聚类算法。它根据N个数据点之间的相似度进行聚类,这些相似度可以是对称的,即两个数据点互相之间的相似度一样(如欧氏距离);也可以是不对称的,即两个数据点互相之间的相似度不等。这些相似度组成N×N的相...
分类:
编程语言 时间:
2015-07-27 12:50:40
阅读次数:
110