层次聚类算法:
前面介绍的K-means算法和K中心点算法都属于划分式(partitional)聚类算法。层次聚类算法是将所有的样本点自底向上合并组成一棵树或者自顶向下分裂成一棵树的过程,这两种方式分别称为凝聚和分裂。
凝聚层次算法:
初始阶段,将每个样本点分别当做其类簇,然后合并这些原子类簇直至达到预期的类簇数或者其他终止条件。
分裂层次算法:
初始阶段,将所有的样本点当做同一类簇,然...
分类:
编程语言 时间:
2014-11-05 13:01:24
阅读次数:
284
一 什么是基于密度的聚类算法
由于层次聚类算法和划分式聚类算往往只能发现凸形的聚类簇。为了弥补这一缺陷,发现各种任意形状的聚类簇,开发出基于密度的聚类算法。这类算法认为,在整个样本空间点中,各目标类簇是由一群的稠密样本点组成的,而这些稠密样本点被低密度区域(噪声)分割,而算法的目的就是要过滤低密度区域,发现稠密样本点。
二 DBSCAN(Density-based Spatial ...
分类:
数据库 时间:
2014-11-05 13:00:41
阅读次数:
308
最近看到Andrew Ng的一篇论文,文中用到了Kmeans和DL结合的思想,突然发现自己对ML最基本的聚类算法都不清楚,于是着重的看了下Kmeans,并在网上找了程序跑了下。kmeans是unsupervised learning最基本的一个聚类算法,我们可以用它来学习无标签的特征,其基本思想如....
分类:
其他好文 时间:
2014-11-04 10:36:13
阅读次数:
269
参考了许多资料加上个人理解,对十大算法进行如下分类:
?分类算法:C4.5,CART,Adaboost,NaiveBayes,KNN,SVM
?聚类算法:KMeans
?统计学习:EM
?关联分析:Apriori
?链接挖掘:PageRank...
分类:
编程语言 时间:
2014-11-03 11:32:18
阅读次数:
241
阅读导读:
1.什么是聚类分析?
2.Mahout中的kmeans算法,默认的分融符是什么?
3.用kmeans算法得到的结果有什么特点?
1.
聚类算法kmeans
聚类分析是数据挖掘及机器学习领域内的重点问题之一,在数据挖掘、模式识别、决策支持、机器学习及图像分割等领域有广泛的应用,是最重要的数据分析方法之一。聚类是在给定的数据集合中寻找同类的数据子集合,每一...
分类:
其他好文 时间:
2014-10-29 00:25:22
阅读次数:
359
给定训练集,想把这些样本分成不同的子集,即聚类,,但是这是个无标签数据集,也就是说我们再聚类的时候不能利用标签信息,所以这是一个无监督学习问题。k-means聚类算法的流程如下:1. 随机初始化聚类中心2. a. 对与每一个聚类中心,计算所有样本到该聚类中心的距离,然后选出距离该聚类中心最近的几个样...
分类:
编程语言 时间:
2014-10-28 20:02:27
阅读次数:
251
人生如戏!!!! 一、理论准备 输入:簇的数目k和包含n个对象的数据库。 输出:k个簇,使平方误差准则最小。 算法步骤: 1.为每个聚类确定一个初始聚类中心,这样就有K 个初始聚类中心。 2.将样本集中的样本按照最小距离原则分配到最邻近聚类 3.使用每个聚类中的样本均值作为新的聚类中心。 ...
分类:
编程语言 时间:
2014-10-27 17:32:33
阅读次数:
563
我接触过的大数据有:
1.美国棱镜计划
2.前几天新闻报道的,苹果公司窃取用户隐私
3.百度的用户搜素习惯统计分析
4.淘宝的用户购物习惯分析,智能推荐宝贝
5.浏览器的智能标签页
...
最想了解的大数据架构与算法:
1.著名的Google 网页排名算法:PageRank
2.著名的聚类算法:K-Means
7.CART
3.C4.5
4.k-Mea...
分类:
其他好文 时间:
2014-10-27 11:00:21
阅读次数:
214
在 聚类算法K-Means, K-Medoids, GMM, Spectral clustering,Ncut一文中我们给出了GMM算法的基本模型与似然函数,在EM算法原理中对EM算法的实现与收敛性证明进行了具体说明。本文主要针对怎样用EM算法在混合高斯模型下进行聚类进行代码上的分析说明。1. GM...
分类:
编程语言 时间:
2014-10-27 10:40:28
阅读次数:
316
"Clustering by fast search and find of density peaks"是今年6月份在《Science》期刊上发表的的一篇论文,论文中提出了一种非常巧妙的聚类算法。经过几天的努力,终于理解并用python实现了文中的算法,下面与大家分享一下自己对算法的理解及实现过程中遇到的问题和解决办法。
首先,该算法是基于这样的假设:类簇中心被具有较低局部密度的邻居点...
分类:
其他好文 时间:
2014-10-23 00:05:18
阅读次数:
368