//某个人评分数据 //拆分训练集,校验集,测试集(ratings是(Int,Rating)格式,取values即可) ...
分类:
其他好文 时间:
2016-08-17 13:34:52
阅读次数:
312
Spark+hadoop+mllib及相关概念与操作笔记 作者: lw 版本: 0.1 时间: 2016-07-18 1、调研相关注意事项 a) 理解调研 调研的意义在于了解当前情况,挖掘潜在的问题,解决存在的疑问,并得到相应的方案。 b) 调研流程 首先明确和梳理现有的疑问是什么,要通过调研解决什 ...
分类:
其他好文 时间:
2016-08-09 18:53:50
阅读次数:
184
写在前面的话:由于spark2.0.0之后ML中才包括LDA,GaussianMixture 模型,这里k-means用的是ML模块做测试,LDA,GaussianMixture 则用的是MLlib模块 数据资料下载网站,大力推荐!!! http://archive.ics.uci.edu/ml/d ...
分类:
其他好文 时间:
2016-08-08 19:28:44
阅读次数:
252
MLlib 是构建在 Spark 上的分布式机器学习库,充分利用了 Spark 的内存计算和适合迭代型计算的优势,将性能大幅度提升。同时由于 Spark 算子丰富的表现力, 让大规模机器学习的算法开发不再复杂。 MLlib 是 一 些 常 用 的 机 器 学 习 算 法 和 库 在Spark 平台上 ...
分类:
Web程序 时间:
2016-08-01 17:13:44
阅读次数:
257
1、spark 部署
标签: spark
0 apache spark项目架构
spark SQL -- spark streaming -- MLlib -- GraphX
0.1 hadoop快速搭建,主要利用hdfs存储框架
下载hadoop-2.6.0,解压,到etc/hadoop/目录下
0.2 快速配置文件...
分类:
其他好文 时间:
2016-07-22 19:23:01
阅读次数:
629
最近花了一些时间学习了Scala和Spark,学习语言和框架这样的东西,除了自己敲代码折腾和玩弄外,另一个行之有效的方法就是阅读代码。MLlib正好是以Spark为基础的开源机器学习库,便借机学习MLlib是如何利用Spark实现分布式决策树。本文主要是剖析MLlib的DecisionTree源码,假设读者已经入门Scala基本语法,并熟悉决策树的基本概念,假如您不清楚,可以参照Coursera上两...
分类:
其他好文 时间:
2016-07-15 20:55:18
阅读次数:
319
Spark作为一种开源集群计算环境,具有分布式的快速数据处理能力。而Spark中的Mllib定义了各种各样用于机器学习的数据结构以及算法。Python具有Spark的API。需要注意的是,Spark中,所有数据的处理都是基于RDD的。 首先举一个聚类方面的详细应用例子Kmeans: 下面代码是一些基 ...
分类:
其他好文 时间:
2016-07-08 21:31:18
阅读次数:
611
测试数据: -0.4307829,-1.63735562648104 -2.00621178480549 -1.86242597251066 -1.02470580167082 -0.522940888712441 -0.863171185425945 -1.04215728919298 -0.86 ...
分类:
其他好文 时间:
2016-06-06 18:28:34
阅读次数:
193
1. 概括统计 summary statistics MLlib支持RDD[Vector]列式的概括统计,它通过调用 Statistics 的 colStats方法实现。 colStats返回一个 MultivariateStatisticalSummary 对象,这个对象包含列式的最大值、最小值、 ...
分类:
其他好文 时间:
2016-06-02 20:05:59
阅读次数:
420
Spark Sreaming与MLlib机器学习 本来这篇是准备5.15更的,但是上周一直在忙签证和工作的事,没时间就推迟了,现在终于有时间来写写Learning Spark最后一部分内容了。 第10-11 章主要讲的是Spark Streaming 和MLlib方面的内容。我们知道Spark在离线 ...
分类:
其他好文 时间:
2016-05-31 00:41:38
阅读次数:
394