Apache Spark MLlib是Apache Spark体系中重要的一块拼图:提供了机器学习的模块。不过,目前对此网上介绍的文章不是很多。拿KMeans来说,网上有些文章提供了一些示例程序,而这些程序基本和Apache Spark 官网上的程序片断类似:在得到训练模型后,几乎都没有展示如何使用该模型、程序执行流程、结果展示以及举例测试数据等部分。笔者根据Apache Spark官网上的程序片断,写了一个完整的调用MLlib KMeans库的测试程序,并成功在Spark 1.0 + Yarn 2.2 的...
分类:
其他好文 时间:
2014-07-28 00:01:39
阅读次数:
343
1:Spark生态和安装部署
Spark生态
Spark(内存计算框架)
SparkSteaming(流式计算框架)
Spark SQL(ad-hoc)
Mllib(Machine Learning)
GraphX(bagel将被取代)
安装部署
Spark安装简介
Spark的源码编译
Spark Standalone安装
Spark Standalone H...
分类:
其他好文 时间:
2014-07-22 00:27:35
阅读次数:
317
线性回归(Linear Regression)问题属于监督学习(Supervised Learning)范畴,又称分类(Classification)或归纳学习(Inductive Learning);这类分析中训练数据集中给出的数据类标是确定的;机器学习的目标是,对于给定的一个训练数据集,通过不断的分析和学习产生一个联系属性集合和类标集合的分类函数(Classification Function)或预测函数(Prediction Function),这个函数称为分类模型(Classification Mo...
分类:
其他好文 时间:
2014-06-24 22:58:23
阅读次数:
585
spark1.0.0下使用scala实现机器学习算法,包括分类、回归、聚类、协同过滤以及降维等。
分类:
其他好文 时间:
2014-06-18 15:25:15
阅读次数:
346