0 K-means算法简介K-means是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。算法过程如下:1)从N个文档随机选取K个文档作为质...
分类:
编程语言 时间:
2015-07-28 12:38:26
阅读次数:
271
空间自相关,肯定是空间统计里面第一个拦路虎了,很多人遇上了这个高大上的词汇,立刻就发现,这五个字我好像都认识,但是到底说了啥?不知道。如果翻开各种教材,从统计学到数学到物理学,各种解释都摆出了一副“老子就是高大上学霸,屌丝学渣勿扰”的样子,这个东西真得就那么难么?...
分类:
其他好文 时间:
2015-07-27 23:01:45
阅读次数:
519
(一)原理部分模糊C均值(Fuzzy C-means)算法简称FCM算法,是一种基于目标函数的模糊聚类算法,主要用于数据的聚类分析。理论成熟,应用广泛,是一种优秀的聚类算法。本文关于FCM算法的一些原理推导部分介绍等参考下面视频,加上自己的理解以文字的形式呈现出来,视频参考如下,比较长,看不懂的可以再去看看:FCM原理介绍FCM分析1
FCM分析2
FCM分析3首先介绍一下模糊这个概念,所谓模糊...
分类:
编程语言 时间:
2015-07-27 18:59:44
阅读次数:
464
Affinity Propagation (AP) 聚类是2007年在Science杂志上提出的一种新的聚类算法。它根据N个数据点之间的相似度进行聚类,这些相似度可以是对称的,即两个数据点互相之间的相似度一样(如欧氏距离);也可以是不对称的,即两个数据点互相之间的相似度不等。这些相似度组成N×N的相...
分类:
编程语言 时间:
2015-07-27 12:50:40
阅读次数:
110
CLIQUE(Clustering In QUEst)是一种简单的基于网格的聚类方法,用于发现子空间中基于密度的簇。CLIQUE把每个维划分成不重叠的区间,从而把数据对象的整个嵌入空间划分成单元。它使用一个密度阈值识别稠密单元和稀疏单元。一个单元是稠密的,如果映射到它的对象数超过该密度阈值。CLIQ...
分类:
编程语言 时间:
2015-07-25 22:48:40
阅读次数:
263
发现一个外国的学习ML的网站,介绍分类、回归、聚类等等知识,感觉非常不错就记录下,以后遇到好的学校资料,也会整理分享到这里
http://scikit-learn.org/stable/index.html...
分类:
其他好文 时间:
2015-07-24 18:29:48
阅读次数:
106
k均值(kmeans)聚类是一种最为简单的聚类方法,直接根据数据点之间的距离(欧氏距离,几何距离等等)来划分数据是属于哪一类的,当所有数据点所属的类别不在变化的时候,聚类也就完成了。详细原理可索引下面一个博客:聚类分析笔记-K均值matlab算法(一)关于kmeans再谈几点认识:
重要的一点:聚类数目的问题。有的聚类、分类问题已经限制好了要聚类成几类,也就是聚类数目一定,那么这种聚类通常简单些,直...
分类:
编程语言 时间:
2015-07-24 14:29:21
阅读次数:
324
像上一篇文章 《聚类思想分析》 所述, 聚类算法无所谓好坏,重点在于合理使用各类算法达到最优效果。-----------------------------------------------------------------------------------------------------...
分类:
编程语言 时间:
2015-07-23 19:07:18
阅读次数:
183
优点:原理简单(靠近中心点),实现容易(1、2 天),聚类效果中上(依赖K的选择)缺点:1. 无法确定K的个数 (根据什么指标确定K)2. 对离群点敏感 (容易导致中心点偏移)3. 算法复杂度不易控制 O(NKm), 迭代次数可能较多 (m可能会比较大)4. 局部最优解而不是全局优 (这个和初始点选...
分类:
编程语言 时间:
2015-07-23 13:43:56
阅读次数:
168
聚类算法在数据挖掘中经常使用,思想简单直接。 在系统中,自己也实现过几个聚类算法,做针对性的优化也并无它难度。 由于其方式的简单,开始也未对它有过深入思考。 但是,如果你想让数据自己说话,还是离不开聚类。 因此调研了很多聚类算法,做一些总结。-----------------------...
分类:
其他好文 时间:
2015-07-23 13:30:47
阅读次数:
144