第五节介绍了TaskScheduler的创建,要想TaskScheduler发挥作用,必须要启动它,代码: TaskScheduler在启动的时候,实际调用了backend的start方法,即同时启动了backend。local模式下,这里的backend是localSchedulerBackend ...
分类:
其他好文 时间:
2018-07-15 22:13:31
阅读次数:
154
1.准备工作 1.1 安装spark,并配置spark-env.sh 使用spark-shell前需要安装spark,详情可以参考http://www.cnblogs.com/swordfall/p/7903678.html 如果只用一个节点,可以不用配置slaves文件,spark-env.sh文 ...
分类:
系统相关 时间:
2018-07-06 18:30:32
阅读次数:
172
概述 checkpoint 的机制保证了需要访问重复数据的应用 Spark 的DAG执行图可能很庞大,task 中计算链可能会很长,这时如果 task 中途运行出错,那么 task 的整个需要重算非常耗时,因此,有必要将计算代价较大的 RDD checkpoint 一下,当下游 RDD 计算出错时, ...
分类:
其他好文 时间:
2018-06-19 11:50:29
阅读次数:
236
累加器是Spark的一种变量,顾名思义该变量只能增加。有以下特点:
1,累加器只能在Driver端构建及并只能是Driver读取结果,Task只能累加。
2,累加器不会改变Spark Lazy计算的特点。只会在Job触发的时候进行相关累加操作。
3,现有累加器的类型。
分类:
其他好文 时间:
2018-06-06 10:52:47
阅读次数:
161
hortonworks的源码在github上能找到! https://github.com/hortonworks/spark2-release 找到对应版本release源码后下载到本地 使用ubuntu进行编译,必须在unix下面编译 spark项目使用了hortonworks的私人远程库! 地 ...
分类:
其他好文 时间:
2018-06-01 19:08:35
阅读次数:
746
spark启动代码阅读:spark使用一系列的shell脚本作为入口:其中bin目录下面是任务提交的脚本;sbin目录是master和worker启停相关的脚本。而所有脚本最后都是通过调用bin/spark-class来实现对java(scala)代码的调用。----------------------spark-class获取java参数分析---------------------------
分类:
其他好文 时间:
2018-05-29 00:23:36
阅读次数:
212
withScope是最近的发现版中新增加的一个模块,它是用来做DAG可视化的(DAG visualization on SparkUI) 以前的sparkUI中只有stage的执行情况,也就是说我们不可以看到上个RDD到下个RDD的具体信息。于是为了在 sparkUI中能展示更多的信息。所以把所有创 ...
分类:
其他好文 时间:
2018-05-18 13:58:58
阅读次数:
171
0.环境: java 1.8 scala 2.11.8 maven 3.5.0 idea 2017 spark 2.2.0 1完成以下配置 java环境变量 scala环境变量 maven setting配置文件jar包存放路径 idea下载scala plugins语言插件 idea配置maven ...
分类:
其他好文 时间:
2018-05-08 14:47:49
阅读次数:
126
一、概述 上一篇主要是介绍了spark启动的一些脚本,这篇主要分析一下Spark源码中提交任务脚本的处理逻辑,从spark-submit一步步深入进去看看任务提交的整体流程,首先看一下整体的流程概要图: 二、源码解读 2.1 spark-submit 所以spark-submit脚本的整体逻辑就是: ...
分类:
其他好文 时间:
2018-05-02 20:58:40
阅读次数:
212
Spark笔记整理(一):spark单机安装部署、分布式集群与HA安装部署+spark源码编译
分类:
其他好文 时间:
2018-04-24 20:19:30
阅读次数:
139