import kmeans.kmeans;import kmeans.kmeans_data;import kmeans.kmeans_param; public class Kmeans { public static void main(String[] args) { double[][] p ...
分类:
编程语言 时间:
2017-05-17 17:24:36
阅读次数:
190
聚类是数据挖掘非常重要的组成部分. 而大多数聚类算法都须要事先确定分类数目K. 而本文是在实际情况下确定分类数目K的上限.进而对数据样本进行自己主动分类. 首先介绍下最大最小距离算法: 设样本集为X{x(1),x(2).......} 1.选取随意一个样本作为第一个聚类中心 如z(1)=x(1) 2 ...
分类:
其他好文 时间:
2017-05-17 10:08:06
阅读次数:
230
1.K-均值聚类法的概述 之前在参加数学建模的过程中用到过这种聚类方法,但是当时只是简单知道了在matlab中如何调用工具箱进行聚类,并不是特别清楚它的原理。最近因为在学模式识别,又重新接触了这种聚类算法,所以便仔细地研究了一下它的原理。弄懂了之后就自己手工用matlab编程实现了,最后的结果还不错 ...
分类:
编程语言 时间:
2017-05-14 18:47:47
阅读次数:
301
一、概念 与传统的聚类算法(比如K-means)不同,Canopy聚类最大的特点是不需要事先指定k值(即clustering的个数),因此具有很大的实际应用价值。与其他聚类算法相比,Canopy聚类虽然精度较低,但其在速度上有很大优势,因此可以使用Canopy聚类先对数据进行“粗”聚类,得到k值后再 ...
分类:
编程语言 时间:
2017-05-13 14:19:48
阅读次数:
222
1.K-均值聚类法的概述之前在参加数学建模的过程中用到过这种聚类方法,但是当时只是简单知道了在matlab中如何调用工具箱进行聚类,并不是特别清楚它的原理。最近因为在学模式识别,又重新接触了这种聚类算法,所以便仔细地研究了一下它的原理。弄懂了之后就自己手工用matlab编..
分类:
编程语言 时间:
2017-05-09 11:29:10
阅读次数:
271
一、监督学习 知道数据输入的同时还知道数据的标记。就相当于告诉你题目的同时还告诉你答案,让你在这种环境下学习,称之为监督学习。 其中这几种类别的硬币已经被各种不同的颜色所标示好。 二、无监督学习 没有标示(就是没有输出y)的问题,就是不告诉你题目的正确答案让你自己去寻找,最常见的是聚类或者叫分群 三 ...
分类:
其他好文 时间:
2017-05-08 20:58:48
阅读次数:
158
机器学习按数据的使用方式来说可以分为有监督学习、无监督学习、半监督学习、强化学习等,机器学习中的算法还有另外一种划分方式:分类、聚类、回归。但我更喜欢分为两种:广义的分类(分类+聚类)和回归,这里是按照预测的结果是离散数据还是连续数据来划分的。今天要介绍的决策树就是分类算法中的一种。 在介绍机器学习 ...
分类:
其他好文 时间:
2017-05-08 01:26:28
阅读次数:
228
[聚类算法]K-means优缺点及其改进 【转】:http://blog.csdn.net/u010536377/article/details/50884416 K-means聚类小述 大家接触的第一个聚类方法,十有八九都是K-means聚类啦。该算法十分容易理解,也很容易实现。其实几乎所有的机器 ...
分类:
编程语言 时间:
2017-05-08 01:25:58
阅读次数:
364
【转】http://www.cnblogs.com/kemaswill/archive/2013/01/26/2877434.html 本文主要基于Anand Rajaraman和Jeffrey David Ullman合著,王斌翻译的《大数据-互联网大规模数据挖掘与分布式处理》一书。 KMeans ...
分类:
其他好文 时间:
2017-05-08 01:20:05
阅读次数:
226
给定样本集D={x1,x2,x3,...xm},K-means算法划分所得簇C={c1,c2,c3,...,ck}的最小平方误差,k表示将数据划分为K簇 E=∑i=1 to k∑x->ci||x-ui||2 ui为簇中心,ui=∑x->cix/|ci| 其中|ci|表示该簇中的样本数,直接计算上面的 ...
分类:
其他好文 时间:
2017-05-06 00:57:07
阅读次数:
178