本文简要描述线性回归算法在Spark MLLib中的具体实现,涉及线性回归算法本身及线性回归并行处理的理论基础,然后对代码实现部分进行走读。
分类:
其他好文 时间:
2014-08-15 21:05:49
阅读次数:
562
WEB UI和Metrics子系统为外部观察监测Spark内部运行情况提供了必要的窗口,本文将简略的过一下其内部代码实现。
分类:
Web程序 时间:
2014-08-05 11:06:49
阅读次数:
311
最近我在做流式实时分布式计算系统的架构设计,而正好又要参见CSDN博文大赛的决赛。本来想就写Spark源码分析的文章吧。但是又想毕竟是决赛,要拿出一些自己的干货出来,仅仅是源码分析貌似分量不够。因此,我将最近一直在做的系统架构的思路整理出来,形成此文。为什么要参考Storm和Spark,因为没有参照效果可能不会太好,尤其是对于Storm和Spark由了解的同学来说,可能通过对比,更能体会到每个具体实现背后的意义。
本文对流式系统出现的背景,特点,数据HA,服务HA,节点间和计算逻辑间的消息传递,存储模型,...
分类:
其他好文 时间:
2014-08-02 18:25:23
阅读次数:
489
ShuffleMapTask的计算结果保存在哪,随后Stage中的task又是如何知道从哪里去读取的呢,reduceByKey(_ + _)中的combine计算发生在什么地方,本文将为你一一揭晓。
分类:
其他好文 时间:
2014-07-24 14:41:35
阅读次数:
308
apache 网站上面已经有了已经构建好了的版本,我这里还是自己利用午休时间重新构建一下(jdk,python,scala的安装就省略了,自己可以去安装) http://www.apache.org/dist/spark/spark-1.0.1/ 具体官网的下载链接可...
分类:
其他好文 时间:
2014-07-23 17:40:11
阅读次数:
273
王家林简介Spark亚太研究院院长和首席专家,中国目前唯一的移动互联网和云计算大数据集大成者。在Spark、Hadoop、Android等方面有丰富的源码、实务和性能优化经验。彻底研究了Spark从0.5.0到0.9.1共13个版本的Spark源码,并已完成2014年5月31日发布的Spark1.0...
分类:
移动开发 时间:
2014-07-22 23:29:47
阅读次数:
241
本文主要讲述在standalone cluster部署模式下,应用(Driver Application)所需要的资源是如何获得,在应用退出时又是如何释放的。
分类:
其他好文 时间:
2014-07-22 22:48:15
阅读次数:
243
这一章要讲Spark Streaming,讲之前首先回顾下它的用法,具体用法请参照《Spark Streaming编程指南》。Example代码分析val ssc = new StreamingContext(sparkConf, Seconds(1));// 获得一个DStream负责连接 监听端...
分类:
其他好文 时间:
2014-07-22 08:01:34
阅读次数:
351
上篇博文讲述了如何通过修改源码来查看调用堆栈,尽管也很实用,但每修改一次都需要编译,花费的时间不少,效率不高,而且属于侵入性的修改,不优雅。本篇讲述如何使用intellij idea来跟踪调试spark源码。
分类:
其他好文 时间:
2014-07-18 17:13:03
阅读次数:
210
记录安装Spark环境的过程。前提是Hadoop集群已经安装,详见:Hadoop 2.X 集群安装环境:Centos 6.4 X64 & Hadoop 2.2(三节点集群) & Spark 1.01、获取Spark源码,可以去官网下载,解压。2、编译源码。1)先安装Maven。2)进入源码目录,执行...
分类:
其他好文 时间:
2014-07-16 19:28:29
阅读次数:
180