首先先说一下聚类的概念:聚类就是现在有m个元素,每个元素都有n个可以观察到的特征属性,可以使用算法把这m个元素划分为k个子集,使得每个子集内部元素之间的相异度尽可能小,不同子集之间元素的相异度尽可能大。其中每一个子集叫做簇。与分类不同,分类是有监督学习,要求分类前明确类别,并断言每一个元素属于哪一个...
分类:
编程语言 时间:
2015-09-14 12:01:37
阅读次数:
158
1 #include 2 #include 3 #include 4 #include 5 using namespace std; 6 void kmeans(int n, float* xy, int k, float* cxy) 7 { 8 int i,j; 9 ...
分类:
编程语言 时间:
2015-09-12 18:51:43
阅读次数:
261
Part4文本分类Part3文本聚类提到过。与聚类分类的简单差异。那么,我们需要理清训练集的分类,有明白分类的文本;測试集,能够就用训练集来替代。预測集,就是未分类的文本。是分类方法最后的应用实现。1. 数据准备训练集准备是一个非常繁琐的功能,临时没发现什么省力的办法,依据文本内容去手动整理。这里还...
分类:
编程语言 时间:
2015-09-10 13:05:44
阅读次数:
1664
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、MLlib实例1.1聚类实例1.1.1算法说明聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之...
分类:
其他好文 时间:
2015-09-10 09:32:08
阅读次数:
358
使用后处理来提高聚类性能 利用误差来评价聚类的质量 一种衡量的指标是SSE:误差平方和,该方法更为重视远离簇中心的点。 一种方法是将具有最大SSE值的簇划分成两个簇。将该簇内重新进行分簇。 如果要保持簇的数目不变,可以再讲两个粗合并。合并最小的质心或者合并两个使得SSE枕骨最小的质心。 二分K-均值...
分类:
其他好文 时间:
2015-09-09 17:05:07
阅读次数:
135
使用后处理来提高聚类性能 利用误差来评价聚类的质量 一种衡量的指标是SSE:误差平方和,该方法更为重视远离簇中心的点。 一种方法是将具有最大SSE值的簇划分成两个簇。将该簇内重新进行分簇。 如果要保持簇的数目不变,可以再讲两个粗合并。合并最小的质心或者合并两个使得SSE枕骨最小的质心。 二分K-均值...
分类:
其他好文 时间:
2015-09-09 16:46:07
阅读次数:
163
> java weka.clusterers.SimpleKMeans -p 1 -l G:\Program\data_Factory\example.model -T G:\Program\data_Factory\save_file_ID2Class.arff 0 1 (0) 1 2 (0) 2...
分类:
其他好文 时间:
2015-09-08 15:30:50
阅读次数:
289
一、深入浅出理解索引结构 实际上,您可以把索引理解为一种特殊的目录。微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引、簇集索引)和非聚集索引(nonclustered index,也称非聚类索引、非簇集索引)。下面,我们举例来说明一下聚集索引和非聚集....
分类:
其他好文 时间:
2015-09-08 15:22:51
阅读次数:
181
1、高内聚 类与类之间的关系而定。高,意思是他们之间的关系要简单,明了,不要有很强的关系,不然,运行起来就会出问题。一个类的运行影响到其他的类。 2、低耦合 类内部的方法而言。把程序的功能尽量分散,别在...
分类:
其他好文 时间:
2015-09-07 21:19:46
阅读次数:
124
我觉得主要抓住三点,一是划分成多少类,这个类别数k的指定;二是聚类过程中中心点的选择,开始时怎么选,迭代过程中又该怎么选;三是聚类终止的条件。现在比较流行的就是k均值,k中心点了,当然还有他们的一些变种。首先是这个k的指定问题,现在还没有好的方法。 奥姆卡剃刀原理:当两个假说具有完全相同的解释...
分类:
其他好文 时间:
2015-09-02 00:18:53
阅读次数:
239