1、下载Scala
wget http://www.scala-lang.org/files/archive/scala-2.10.3.tgz
tar xvzf scala-2.10.3.tgz -C /usr/local
2、下载Spark
wget http://www.apache.org/dist/incubator/spark/spark-0.9.0-inc...
分类:
其他好文 时间:
2014-05-11 02:06:21
阅读次数:
368
spark shuffle流程分析
回到ShuffleMapTask.runTask函数
现在回到ShuffleMapTask.runTask函数中:
overridedef runTask(context:TaskContext):
MapStatus = {
首先得到要reduce的task的个数。
valnumOutputSplits=
dep.partitioner.num...
分类:
其他好文 时间:
2014-05-09 22:58:33
阅读次数:
574
Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk,本文尝试分析Spark中存储子系统的构成,并以数据写入和数据读取为例,讲述清楚存储子系统中各部件的交互关系。
分类:
其他好文 时间:
2014-05-09 05:14:32
阅读次数:
405
一、准备工作: 1、下载release版spark
0.9.1,本次用的版本是spark-0.9.1-bin-cdh4。 2、下载scala IDE 3.0.2,这个版本ide的支持scala 2.10版。
二、配置工作 1、在ide中新建scala项目,注意jre要用jdk1.7版的。如下图: 2...
分类:
系统相关 时间:
2014-05-09 03:27:34
阅读次数:
512
Flex1 到 Flex3 使用的都是 Halo组件,这里将介绍Halo 组件中的List 和 DataGrid 。其中 DataGrid 是显示多列数据中最常用的方式。但是在Spark中还有没对应DataGrid的组件。
先写个“食物”的模型 Dinner.as 。
package model {
[Bindable]
public class Dinner {
public...
分类:
其他好文 时间:
2014-05-09 02:34:26
阅读次数:
306
介绍
Spork是Pig on Spark的highly experimental版本,依赖的版本也比较久,如之前文章里所说,目前我把Spork维护在自己的github上:flare-spork。
本文分析的是Spork的实现方式和具体内容。
Spark Launcher
在hadoop executionengine包路径下,写了一个Spark启动器,同MapReduceLauncher类似,会在launchPig的时候,把传入的物理执行计划进行翻译。
MR启动器翻译的是MR的操作,以及进一步的MR...
分类:
其他好文 时间:
2014-05-09 02:08:17
阅读次数:
358
Task的执行过程分析
Task的执行通过Worker启动时生成的Executor实例进行,
caseRegisteredExecutor(sparkProperties)=>
logInfo("Successfullyregistered with driver")
//Make this host instead of hostPort ?
executor=
newExecuto...
分类:
其他好文 时间:
2014-05-08 16:01:31
阅读次数:
667
Akka 是一个用 Scala 编写的库,用于简化编写容错的、高可伸缩性的 Java 和 Scala
的 Actor 模型应用。Actor模型并非什么新鲜事物,它由Carl
Hewitt于上世纪70年代早期提出,目的是为了解决分布式编程中一系列的编程问题。其特点如下:系统中的所有事物都可以扮演一个A...
分类:
其他好文 时间:
2014-05-08 12:32:32
阅读次数:
392
引言
工作之余参加了Coursera的公开课Functional Programming Principles in Scala,这个课是第三次开讲了,讲师仍然是Scala的祖师爷Martin Odersky先生。个人认为学习公开课最大的阻碍在于有些老师的口音实在是……不忍直视,比如最早在Coursera开授公开课的Andrew Ng(当然他现在是小老板了)。幸好Martin大爷的英文口音不是很...
分类:
其他好文 时间:
2014-05-08 05:58:43
阅读次数:
405
本文通过跟代码的方式,分析从输入一批Pig-latin到输出物理执行计划(与launcher引擎有关,一般是MR执行计划,也可以是Spark RDD的执行算子)的整体流程。
不会具体涉及AST如何解析、如何使用了Anltr、逻辑执行计划如何映射、逻辑执行计划如何优化、MR执行计划如何切分为MR Job,而是从输入一批Pig DSL到待执行的真正执行计划的关键变化步骤(方法和类)。...
分类:
其他好文 时间:
2014-05-08 04:00:42
阅读次数:
407