写熟悉的第一句代码 val conf = new SparkConf().setAppName("WordCount")点击SparkConf() ,发现 private val settings = new ConcurrentHashMap[String, String]() 可见 所有配置都是 ...
分类:
其他好文 时间:
2019-11-15 22:48:59
阅读次数:
156
基于Centos7编译spark指定Hadoop版本 0 摘要 主要探究了如何对spark源码进行编译,以及普及了一下Maven中的-P,-D的意义以及我在编译过程中遇到的两个坑。为什么需要编译spark源码呢?官网已经提供了预编译的版本了啊,但是如果你对spark源码进行了修改或者spark提供了 ...
分类:
其他好文 时间:
2019-10-19 15:02:25
阅读次数:
125
https://blog.csdn.net/do_yourself_go_on/article/details/76033252 Spark源码之reduceByKey与GroupByKey Spark源码之reduceByKey与GroupByKey ...
分类:
其他好文 时间:
2019-08-27 00:33:03
阅读次数:
69
如下,是 spark 源码分析系列的一些文章汇总,持续更新中...... Spark RPC spark 源码分析之五--Spark RPC剖析之创建NettyRpcEnv spark 源码分析之六--Spark RPC剖析之Dispatcher和Inbox、Outbox剖析 spark 源码分析之 ...
分类:
其他好文 时间:
2019-07-28 17:17:16
阅读次数:
108
SparkContext可以说是Spark应用的发动机引擎,Spark Drive的初始化围绕这SparkContext的初始化。 SparkContext总览 sparkcontxt的主要组成部分 sparkEnv:spark运行环境,Executor是处理任务的执行器,依赖于SparkEnv的环 ...
分类:
其他好文 时间:
2019-07-18 19:25:12
阅读次数:
117
本篇文章主要剖析Spark的内存管理体系。 在上篇文章 spark 源码分析之十四 -- broadcast 是如何实现的?中对存储相关的内容没有做过多的剖析,下面计划先剖析Spark的内存机制,进而进入内存存储,最后再剖析磁盘存储。本篇文章主要剖析内存管理机制。 整体介绍 Spark内存管理相关类 ...
分类:
其他好文 时间:
2019-07-17 20:37:34
阅读次数:
136
上篇文章讲到DAGScheduler会把job划分为多个Stage,每个Stage中都会创建一批Task,然后把Task封装为TaskSet提交到TaskScheduler。这里我们来一起看下TaskScheduler是如何把Task分配到应用程序的Executor上去执行。重点是这里的task分配... ...
分类:
其他好文 时间:
2019-07-14 13:29:28
阅读次数:
135
LiveListenerBus 首先,它定义了 4 个 消息堵塞队列,队列的名字分别为shared、appStatus、executorManagement、eventLog。队列的类型是 org.apache.spark.scheduler.AsyncEventQueue#AsyncEventQu ...
分类:
其他好文 时间:
2019-07-02 00:25:21
阅读次数:
97
创建或使用现有Session 从Spark 2.0 开始,引入了 SparkSession的概念,创建或使用已有的session 代码如下: 首先,使用了 builder 模式来创建或使用已存在的SparkSession,org.apache.spark.sql.SparkSession.Build ...
分类:
其他好文 时间:
2019-07-02 00:20:13
阅读次数:
109
RDD的四种依赖关系 RDD四种依赖关系,分别是 ShuffleDependency、PrunDependency、RangeDependency和OneToOneDependency四种依赖关系。如下图所示:org.apache.spark.Dependency有两个一级子类,分别是 Shuffl ...
分类:
其他好文 时间:
2019-07-01 09:16:39
阅读次数:
109