分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的...
分类:
编程语言 时间:
2017-05-05 23:06:45
阅读次数:
707
一、聚类算法:from sklearn.cluster import KMeans (一)输入参数: (1)n_clusters:要分成的簇数也是要生成的质心数 类型:整数型(int) 默认值:8 n_clusters : int, optional, default: 8 The number o ...
分类:
其他好文 时间:
2017-05-04 12:08:26
阅读次数:
329
Scikit-Learn总结 Scikit-Learn(基于Python的工具包)1.是一个基于Numpy,Scipy,Matplotlib的开源机器学习工具包。2.该包于2007年发起,基本功能包涵了6个方面:分类、回归、聚类、数据降维、模型选择、预处理包括了大量常用的算法::SVM,逻辑回归,朴 ...
分类:
其他好文 时间:
2017-05-03 09:20:36
阅读次数:
1030
ISODATA迭代自组织数据分析算法。 上一篇K-mean算法实质上应属于监督学习的算法,而这次的ISODATA算法则属于非监督学习,在不确定聚类中心数目的情况下,只根据提前设置好的参数对样本点进行分类,可以结合人机交互的结构,在K-mean算法的基础上增加了合并核和分裂两个操作,相对来说更为灵活。 ...
分类:
其他好文 时间:
2017-04-30 01:00:47
阅读次数:
263
数据获得的方式多种多样,常用的公开数据集包括: 1.UCL机器学习知识库:包括近300个不同大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。数据集列表位于:http://archive.ics.uci.edu/ml/ 2.Amazon AWS公开数据集:包含的通常是大型数据集,可通过Ama ...
分类:
其他好文 时间:
2017-04-29 12:57:42
阅读次数:
198
刚刚研究了Kmeans。Kmeans是一种十分简单的聚类算法。可是他十分依赖于用户最初给定的k值。它无法发现随意形状和大小的簇。最适合于发现球状簇。他的时间复杂度为O(tkn)。kmeans算法有两个核心点:计算距离的公式&推断迭代停止的条件。一般距採用欧式距离等能够随意。推断迭代停止的条件能够有: ...
分类:
编程语言 时间:
2017-04-28 20:30:15
阅读次数:
646
上数据挖掘课,数据准备部分考虑这样做:根据配置文件打开相应的网址并保存。之后再对这些文件进行内容解析、文本提娶矩阵转换、聚类等。publicstaticvoidmain(String[]args){
finalintTHREAD_COUNT=5;
StringbaseUrl=null;
StringsearchBlogs=null;
Stringblogs[]=null;
..
分类:
Web程序 时间:
2017-04-27 19:31:44
阅读次数:
140
kmean均值算法是一种最常见的聚类算法。算法实现简单,效果也比较好。kmean算法把n个对象划分成指定的k个簇,每个簇中所有对象的均值的平均值为该簇的聚点(中心)。 k均值算法有如下五个步骤: ...
分类:
编程语言 时间:
2017-04-23 23:09:45
阅读次数:
262
在机器学习(Machine learning)领域。主要有三类不同的学习方法: 监督学习(Supervised learning)、 非监督学习(Unsupervised learning)、 半监督学习(Semi-supervised learning), 监督学习:通过已有的一部分输入数据与输出 ...
分类:
其他好文 时间:
2017-04-22 20:43:33
阅读次数:
305
摘要 使用 Iso 聚类工具和最大似然法分类工具对一系列输入栅格波段运行非监督分类。 使用方法 · 此工具结合了 Iso 聚类工具与最大似然法分类工具的功能。输出经过分类的栅格。作为可选的,它也能够输出特征文件。 · 此工具生成的特征文件可用作其它分类工具(比如最大似然法分类)的输入。从而更好地控制 ...
分类:
其他好文 时间:
2017-04-22 17:33:08
阅读次数:
325