一. mahout简介:
Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。
以下为在mahout实现的机器学习算法:
算法类...
分类:
其他好文 时间:
2015-01-13 00:09:27
阅读次数:
251
最近做数据挖掘相关的工作,题目是时间序列聚类研究,目前对于这方面的研究都还只是在起步阶段,被广泛使用的还是基于K-MEDOIDS的聚类,放弃K-MEANS的主要原因还是时间序列之间序列的计算难度,对于这方面我们也已经有了一定的进展,不过也还是有很多的问题。把基于DTW与K-MEDOIDS的时间序列聚...
分类:
编程语言 时间:
2015-01-12 22:14:56
阅读次数:
400
聚类例子流聚类例子聚类MLlib支持k-means聚类,一种最常用的聚类方法,将数据点聚成指定数据的簇。MLlib实现了一种k-means++的并行变种,叫做kmeansII。MLlib的实现包括以下参数:k 设定的聚类数目maxIterations 最大循环册数initializationMod....
分类:
其他好文 时间:
2015-01-12 19:08:44
阅读次数:
110
LSA and SVD
LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”或者“Concept”。我们知道,在文档的空间向量模型(VSM)中,文档被表示成由特征词出现概率组成的多维向量,这种方法的好处是可以将query和文档转化成同一空间下的向量计算相似度,可以对不同词项赋予不同的权重,在文本检索、分类、聚类问题中都得到了广泛应用,在基于贝叶斯算法及KNN算法的ne...
分类:
其他好文 时间:
2015-01-09 20:59:37
阅读次数:
265
聚类是一种无监督的学习,它将相似的对象归到同一个簇中。它有点像全自动分类(类别体系是自动构建的)。聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好。本文要介绍一种称为K-均值(K-means)聚类的算法。之所以称之为K-均值是因为它可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。...
分类:
编程语言 时间:
2015-01-08 17:58:36
阅读次数:
324
Mean Shift,我们 翻译为“均值飘移”。其在聚类,图像平滑。图像切割和跟踪方面得到了比較广泛的应用。因为本人眼下研究跟踪方面的东西,故此主要介绍利用Mean Shift方法进行目标跟踪,从而对MeanShift有一个比較全面的介绍。 (下面某些部分转载常峰学长的“Mean Shift概述”)...
分类:
其他好文 时间:
2015-01-08 13:07:55
阅读次数:
229
聚类是一种无监督的学习(无监督学习不依赖预先定义的类或带类标记的训练实例),它将相似的对象归到同一个簇中,它是观察式学习,而非示例式的学习,有点像全自动分类。说白了,聚类(clustering)是完全可以按字面意思来理解的——将相同、相似、相近、相关的对象实例聚成一类的过程。机器学习中常见的聚类算法包括 k-Means算法、期望最大化算法(Expectation Maximization,EM,参考“EM算法原理”)、谱聚类算法(参考机器学习算法复习-谱聚类)以及人工神经网络算法,本文阐述的是K-均值聚类算...
分类:
编程语言 时间:
2015-01-07 16:49:33
阅读次数:
245
前言 在前面的文章中,涉及到的机器学习算法均为监督学习算法。 所谓监督学习,就是有训练过程的学习。再确切点,就是有 "分类标签集" 的学习。 现在开始,将进入到非监督学习领域。从经典的聚类问题展开讨论。所谓聚类,就是事先并不知道具体分类方案的分类 (允许知道分类个数)。 本文将介绍一个最为经...
分类:
编程语言 时间:
2015-01-06 17:06:13
阅读次数:
499