http://www.cnblogs.com/LBSer/p/4605904.html Kmeans算法是一种非监督聚类算法,由于原理简单而在业界被广泛使用,一般在实践中遇到聚类问题往往会优先使用Kmeans尝试一把看看结果。本人在工作中对Kmeans有过多次实践,进行过用户行为聚类(MapR...
分类:
其他好文 时间:
2015-06-28 18:48:53
阅读次数:
178
1 Kmeans算法原理K-MEANS算法: 输入:聚类个数k,以及包含 n个数据对象的数据。输出:满足方差最小标准的k个聚类。 处理流程: (1)从 n个数据对象选择 k 个对象作为初始聚类中心; (2)循环(3)到(4)直到每个聚类不再发生变化为止 (3)根据每个聚类对象的均值...
分类:
其他好文 时间:
2015-06-28 14:14:23
阅读次数:
464
聚类算法,无监督学习的范畴,没有明确的类别信息。 给定n个训练样本{x1,x2,x3,...,xn} kmeans算法过程描述如下所示:1.创建k个点作为起始质心点,c1,c2,...,ck2.重复以下过程直到收敛 遍历所有样本xi 遍历所有质心cj 记录质心与...
分类:
其他好文 时间:
2015-06-19 18:35:39
阅读次数:
187
Kmeans是机器学习中最经典的无监督学习聚类算法,本文复习了无监督学习定义和Kmeans算法,然后提出了一种基于Kmeans算法的图像压缩方案,并给出了其在Matlab中的实现...
分类:
编程语言 时间:
2015-06-08 10:00:03
阅读次数:
3182
1.1 KMeans聚类算法
1.1.1 基础理论
KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。
K-Means聚类算法主要分为三个步骤:
(1)第一步是为待聚类的点寻找聚类中心;
(2)第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点...
分类:
编程语言 时间:
2015-05-12 23:10:11
阅读次数:
402
引言 k-Means很早就接触了,大四做本科毕设的时候就用的k-Means,最近从新翻到机器学习实战书中讲到,再结合这几年看到的相关的文章,谈一谈KMeans 算法流程 首先数据集中的每个样本向量可看作高维空间中的一个点 那么我们开始的时候可以从数据集中任意选取K个数据点作为初始类中心,也可以创建符...
分类:
其他好文 时间:
2015-04-27 23:20:35
阅读次数:
217
在使用mahout之前要安装并启动hadoop集群将mahout的包上传至linux中并解压即可mahout下载地址:点击打开链接mahout中的算法大致可以分为三大类:聚类,协同过滤和分类其中常用聚类算法有:canopy聚类,k均值算法(kmeans),模糊k均值,层次聚类,LDA聚类等常用分类算...
分类:
编程语言 时间:
2015-04-15 21:13:03
阅读次数:
170
canopy是聚类算法的一种实现
它是一种快速,简单,但是不太准确的聚类算法
canopy通过两个人为确定的阈值t1,t2来对数据进行计算,可以达到将一堆混乱的数据分类成有一定规则的n个数据堆
由于canopy算法本身的目的只是将混乱的数据划分成大概的几个类别,所以它是不太准确的
但是通过canopy计算出来的n个类别可以用在kmeans算法中的k值的确定(因为人为无法准确的确定k值到底要...
分类:
编程语言 时间:
2015-04-11 19:32:07
阅读次数:
183
在使用mahout之前要安装并启动hadoop集群
将mahout的包上传至linux中并解压即可
mahout下载地址:
点击打开链接
mahout中的算法大致可以分为三大类:
聚类,协同过滤和分类
其中
常用聚类算法有:canopy聚类,k均值算法(kmeans),模糊k均值,层次聚类,LDA聚类等
常用分类算法有:贝叶斯,逻辑回归,支持向量机,感知器,神经网络等
...
分类:
编程语言 时间:
2015-04-11 09:04:31
阅读次数:
328
Mahout主要有协同过滤、聚类和分类三种算法的实现。现在我们就用Mahout来实现经典的Kmeans聚类算法。并且在Hadoop平台上跑出个结果!...
分类:
编程语言 时间:
2015-04-05 16:03:20
阅读次数:
329