搜索关键字：spark源码，搜索到225个结果！码迷,mamicode.com！

Spark源码剖析——SparkContext的初始化(四)_TaskScheduler的启动

第五节介绍了TaskScheduler的创建，要想TaskScheduler发挥作用，必须要启动它，代码： TaskScheduler在启动的时候，实际调用了backend的start方法，即同时启动了backend。local模式下，这里的backend是localSchedulerBackend ...

分类：其他好文时间：2018-07-15 22:13:31 阅读次数：154

Spark源码解析(一) —— Spark-shell浅析

1.准备工作 1.1 安装spark，并配置spark-env.sh 使用spark-shell前需要安装spark，详情可以参考http://www.cnblogs.com/swordfall/p/7903678.html 如果只用一个节点，可以不用配置slaves文件，spark-env.sh文 ...

分类：系统相关时间：2018-07-06 18:30:32 阅读次数：172

Spark源码分析之Checkpoint的过程

概述 checkpoint 的机制保证了需要访问重复数据的应用 Spark 的DAG执行图可能很庞大，task 中计算链可能会很长，这时如果 task 中途运行出错，那么 task 的整个需要重算非常耗时，因此，有必要将计算代价较大的 RDD checkpoint 一下，当下游 RDD 计算出错时， ...

分类：其他好文时间：2018-06-19 11:50:29 阅读次数：236

spark源码系列之累加器实现机制及自定义累加器

累加器是Spark的一种变量，顾名思义该变量只能增加。有以下特点： 1，累加器只能在Driver端构建及并只能是Driver读取结果，Task只能累加。 2，累加器不会改变Spark Lazy计算的特点。只会在Job触发的时候进行相关累加操作。 3，现有累加器的类型。

分类：其他好文时间：2018-06-06 10:52:47 阅读次数：161

独一无二 hortonworks spark 源码编译教程

hortonworks的源码在github上能找到！ https://github.com/hortonworks/spark2-release 找到对应版本release源码后下载到本地使用ubuntu进行编译，必须在unix下面编译 spark项目使用了hortonworks的私人远程库！地 ...

分类：其他好文时间：2018-06-01 19:08:35 阅读次数：746

spark源码阅读（一）启动代码阅读

spark启动代码阅读：spark使用一系列的shell脚本作为入口：其中bin目录下面是任务提交的脚本；sbin目录是master和worker启停相关的脚本。而所有脚本最后都是通过调用bin/spark-class来实现对java（scala）代码的调用。----------------------spark-class获取java参数分析---------------------------

分类：其他好文时间：2018-05-29 00:23:36 阅读次数：212

spark源码学习-withScope

withScope是最近的发现版中新增加的一个模块，它是用来做DAG可视化的（DAG visualization on SparkUI）以前的sparkUI中只有stage的执行情况，也就是说我们不可以看到上个RDD到下个RDD的具体信息。于是为了在 sparkUI中能展示更多的信息。所以把所有创 ...

分类：其他好文时间：2018-05-18 13:58:58 阅读次数：171

idea下关联spark源码环境（转）

0.环境： java 1.8 scala 2.11.8 maven 3.5.0 idea 2017 spark 2.2.0 1完成以下配置 java环境变量 scala环境变量 maven setting配置文件jar包存放路径 idea下载scala plugins语言插件 idea配置maven ...

分类：其他好文时间：2018-05-08 14:47:49 阅读次数：126

Spark学习之路（十六）SparkCore的源码解读（一）spark-submit提交脚本

一、概述上一篇主要是介绍了spark启动的一些脚本，这篇主要分析一下Spark源码中提交任务脚本的处理逻辑，从spark-submit一步步深入进去看看任务提交的整体流程,首先看一下整体的流程概要图：二、源码解读 2.1　spark-submit 所以spark-submit脚本的整体逻辑就是： ...

分类：其他好文时间：2018-05-02 20:58:40 阅读次数：212

Spark笔记整理（一）：spark单机安装部署、分布式集群与HA安装部署+spark源码编译

分类：其他好文时间：2018-04-24 20:19:30 阅读次数：139