码迷,mamicode.com
首页 >  
搜索关键字:spark源码    ( 225个结果
Spark源码(1) Spark配置
写熟悉的第一句代码 val conf = new SparkConf().setAppName("WordCount")点击SparkConf() ,发现 private val settings = new ConcurrentHashMap[String, String]() 可见 所有配置都是 ...
分类:其他好文   时间:2019-11-15 22:48:59    阅读次数:156
基于Centos7编译spark指定Hadoop版本
基于Centos7编译spark指定Hadoop版本 0 摘要 主要探究了如何对spark源码进行编译,以及普及了一下Maven中的-P,-D的意义以及我在编译过程中遇到的两个坑。为什么需要编译spark源码呢?官网已经提供了预编译的版本了啊,但是如果你对spark源码进行了修改或者spark提供了 ...
分类:其他好文   时间:2019-10-19 15:02:25    阅读次数:125
Spark & Scala:
https://blog.csdn.net/do_yourself_go_on/article/details/76033252 Spark源码之reduceByKey与GroupByKey Spark源码之reduceByKey与GroupByKey ...
分类:其他好文   时间:2019-08-27 00:33:03    阅读次数:69
Spark 源码分析系列
如下,是 spark 源码分析系列的一些文章汇总,持续更新中...... Spark RPC spark 源码分析之五--Spark RPC剖析之创建NettyRpcEnv spark 源码分析之六--Spark RPC剖析之Dispatcher和Inbox、Outbox剖析 spark 源码分析之 ...
分类:其他好文   时间:2019-07-28 17:17:16    阅读次数:108
spark源码之SparkContext
SparkContext可以说是Spark应用的发动机引擎,Spark Drive的初始化围绕这SparkContext的初始化。 SparkContext总览 sparkcontxt的主要组成部分 sparkEnv:spark运行环境,Executor是处理任务的执行器,依赖于SparkEnv的环 ...
分类:其他好文   时间:2019-07-18 19:25:12    阅读次数:117
spark 源码分析之十五 -- Spark内存管理剖析
本篇文章主要剖析Spark的内存管理体系。 在上篇文章 spark 源码分析之十四 -- broadcast 是如何实现的?中对存储相关的内容没有做过多的剖析,下面计划先剖析Spark的内存机制,进而进入内存存储,最后再剖析磁盘存储。本篇文章主要剖析内存管理机制。 整体介绍 Spark内存管理相关类 ...
分类:其他好文   时间:2019-07-17 20:37:34    阅读次数:136
大话Spark(9)-源码之TaskScheduler
上篇文章讲到DAGScheduler会把job划分为多个Stage,每个Stage中都会创建一批Task,然后把Task封装为TaskSet提交到TaskScheduler。这里我们来一起看下TaskScheduler是如何把Task分配到应用程序的Executor上去执行。重点是这里的task分配... ...
分类:其他好文   时间:2019-07-14 13:29:28    阅读次数:135
spark 源码分析之三 -- LiveListenerBus介绍
LiveListenerBus 首先,它定义了 4 个 消息堵塞队列,队列的名字分别为shared、appStatus、executorManagement、eventLog。队列的类型是 org.apache.spark.scheduler.AsyncEventQueue#AsyncEventQu ...
分类:其他好文   时间:2019-07-02 00:25:21    阅读次数:97
spark 源码分析之二 -- SparkContext 的初始化过程
创建或使用现有Session 从Spark 2.0 开始,引入了 SparkSession的概念,创建或使用已有的session 代码如下: 首先,使用了 builder 模式来创建或使用已存在的SparkSession,org.apache.spark.sql.SparkSession.Build ...
分类:其他好文   时间:2019-07-02 00:20:13    阅读次数:109
spark 源码分析之一 -- RDD的四种依赖关系
RDD的四种依赖关系 RDD四种依赖关系,分别是 ShuffleDependency、PrunDependency、RangeDependency和OneToOneDependency四种依赖关系。如下图所示:org.apache.spark.Dependency有两个一级子类,分别是 Shuffl ...
分类:其他好文   时间:2019-07-01 09:16:39    阅读次数:109
225条   上一页 1 2 3 4 ... 23 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!