#include
#define dimense 10
//10维数据
#define N 5005
#define MAX 0xffffff
#define clr(a) memset(a,0,sizeof(a))
using namespace std;
struct Point{
double dir[dimense];
int belong;
};
int num=5000...
分类:
编程语言 时间:
2014-12-03 21:25:59
阅读次数:
268
k-means:基于划分算法的典型、实现比较简单。特点是只能聚球形、受离群点的影响很大。
采用python实现:用二维矩阵来存点集和质心点、每次循环分两步:计算质心和重新分配点,循环直到最小平方误差SSE收敛为止,或者指定一个最大的迭代次数。
关于画图,我使用的是pylab和Matplotlib,Matplotlib中的很多函数和matlab用法一样,比较方便作图,安装它时花了很长的时间来解决...
分类:
其他好文 时间:
2014-12-03 15:43:56
阅读次数:
230
狄利克雷聚类算法 前面介绍的三种聚类算法都是基于划分的,下面我们简要介绍一个基于概率分布模型的聚类算法,狄利克雷聚类(Dirichlet Processes Clustering)。 首先我们先简要介绍一下基于概率分布模型的聚类算...
分类:
编程语言 时间:
2014-11-13 16:57:10
阅读次数:
306
与数据挖掘有关或者有帮助的R包和函数的集合。1、聚类常用的包: fpc,cluster,pvclust,mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana基于模型的方法: mclust基于密度的方...
分类:
其他好文 时间:
2014-09-10 00:13:09
阅读次数:
297
下面列出了可用于数据挖掘的R包和函数的集合。其中一些不是专门为了数据挖掘而开发,但数据挖掘过程中这些包能帮我们不少忙,所以也包含进来。1、聚类常用的包: fpc,cluster,pvclust,mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclus...
分类:
其他好文 时间:
2014-09-02 00:10:23
阅读次数:
314
算法描述
K-means算法是一种被广泛使用的基于划分的聚类算法,目的是将n个对象会分成k个簇。算法的具体描述如下:随机选取k个对象作为簇中心;Do
计算所有对象到这k个簇中心的距离,将距离最近的归入相应的簇; 重新计算每个簇的中心; 计算准则...
分类:
其他好文 时间:
2014-06-11 10:37:42
阅读次数:
192
K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。Mahout kmeans MapReduce实现的原理和上述的一致,值得注意的是,Mahout将数据存储在HDFS,用MapReduce做批量并行的计算。在做kmeans之前,需要将文本用Mahout向量化模块工具做向量化。计算过程主要分为三个步骤:初始中心选取,寻找簇中心,划分数...
分类:
其他好文 时间:
2014-05-26 06:00:31
阅读次数:
239