最近要在spark上做一个聚类的项目,数据规模和类的数目都比较大。因此总结了一下常见的聚类算法。最终选择mini-batch kmeans,并使用kmeans++来初始化类中心。这样算法的执行速度比较快,而且效果相对靠谱。...
分类:
其他好文 时间:
2014-09-13 00:51:24
阅读次数:
420
Spark之所以万人瞩目,除了内存计算,还有其ALL-IN-ONE的特性,实现了One stack rule them all。下面简单模拟了几个综合应用场景,不仅使用了sparkSQL,还使用了其他Spark组件:
店铺分类,根据销售额对店铺分类货品调拨,根据货品的销售数量和店铺之间的距离进行货品调拨
前者将使用sparkSQL+MLlib的聚类算法,后者将使用s...
分类:
数据库 时间:
2014-09-11 09:39:41
阅读次数:
292
看了 Andrew Ng 公开课里的第一节课后,感觉机器学习好高大上。。系里最高大上的国家级重点实验室CAD实验室用的3D成像技术就跟Andrew Ng大大放的聚类算法做出的3D场景几乎一样。看完后我觉得,我现在也开始走高端路线了→_→ 第一章:回归算法 1.LMS Algorithm(...
分类:
其他好文 时间:
2014-09-05 23:34:32
阅读次数:
227
//写个简单的先练习一下,测试通过//k-均值聚类算法C语言版 #include #include #include #include #define TRUE 1 #define FALSE 0 int N;//数据个数 int K;//集合个数 int...
分类:
其他好文 时间:
2014-09-05 21:07:42
阅读次数:
184
常用相似性度量(距离 相似系数)在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法.令X=(x1,x2,..,xn)T,Y=(y1,y2,.....
分类:
其他好文 时间:
2014-09-05 19:48:51
阅读次数:
595
改算法可以用于实时路况的gps点的去噪,伪码如下: 输入: E: 对象半径 Minpst: 给定D中E领域以内成为核心点的最小点数 D: 集合 目标:找到多个联通的最大相互密度直接可达的点的集合 repeat: 判断点是否是核心点 ...
分类:
数据库 时间:
2014-09-05 18:35:12
阅读次数:
231
今年 6 月份,Alex Rodriguez 和 Alessandro Laio 在 Science 上发表了一篇名为《Clustering by fast search and find of density peaks》的文章,为聚类算法的设计提供了一种新的思路。虽然文章出来后遭到了众多...
分类:
其他好文 时间:
2014-08-29 20:03:18
阅读次数:
294
今年 6 月份,Alex Rodriguez 和 Alessandro Laio 在 Science 上发表了一篇名为《Clustering by fast search and find of density peaks》的文章,为聚类算法的设计提供了一种新的思路。虽然文章出来后遭到了众多读者的质疑,但整体而言,新聚类算法的基本思想很新颖,且简单明快,值得学习。这个新聚类算法的核心思想在于对聚类中心的刻画上,本文将对该算法的原理进行详细介绍,并对其中的若干细节展开讨论。...
分类:
其他好文 时间:
2014-08-29 18:18:28
阅读次数:
390
作者(Alex Rodriguez, Alessandro Laio)提出了一种很简洁优美的聚类算法, 可以识别各种形状的类簇, 并且其超参数很容易确定.
算法思想
该算法的假设是类簇的中心由一些局部密度比较低的点围绕, 并且这些点距离其他有高局部密度的点的距离都比较大. 首先定义两个值: 局部密度...
分类:
其他好文 时间:
2014-08-28 19:33:05
阅读次数:
301
K-Means是常用的聚类算法,与其他聚类算法相比,其时间复杂度低,聚类的效果也还不错,本文介绍一下k-means算法并在文本分类上应用。
分类:
其他好文 时间:
2014-08-18 18:08:12
阅读次数:
318