Checkpoint,是Spark提供的一个比较高级的功能。有的时候啊,比如说,我们的Spark应用程序,特别的复杂,然后呢,从初始的RDD开始,到最后整个应用程序完成,有非常多的步骤,比如超过20个transformation操作。而且呢,整个应用运行的时间也特别长,比如通常要运行1~5个小时。在 ...
分类:
其他好文 时间:
2020-05-19 09:12:08
阅读次数:
88
上篇已经降到AppClient找Master进行注册,本章主要解析Master的原理和源码解析 1、Master的主备切换原理 package org.apache.spark.deploy.master completeRecovery,过滤没有响应的worker,app,drivers,从内存缓 ...
分类:
其他好文 时间:
2020-05-11 15:54:04
阅读次数:
62
源码解析 主构造函数代码 private[spark] var (schedulerBackend, taskScheduler) = SparkContext.createTaskScheduler(this, master) createTaskScheduler,创建TaskScheduler ...
分类:
其他好文 时间:
2020-05-10 23:08:55
阅读次数:
63
一、大数据spark 跟着b站的尚硅谷大数据往后学习了8个知识点。 同时把scala的知识点学习了一下。 视频号: av62992342 av64039811 内容:Spark内核 课程学习进度:87/126 二、《一线架构师实践指南》阅读 阅读了第十四章 物理架构、运行架构、开发架构 ...
分类:
其他好文 时间:
2020-02-12 22:28:24
阅读次数:
64
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库... ...
分类:
其他好文 时间:
2020-01-13 19:42:03
阅读次数:
78
1、Spark核心组件 1.1 Cluster Manager(Master,ResourceManager) Spark的集群管理器,主要负责对整个集群资源的分配与管理 Cluster Manager 在 Yarn 部署模式下为 ResourceManager 在 Mesos 部署模式下为 Mes ...
分类:
其他好文 时间:
2019-12-22 14:51:31
阅读次数:
93
1. Spark 基础 2. Spark Core 3. Spark SQL 4. Spark Streaming 5. Spark 内核机制 6. Spark 性能调优 1. Spark 基础 1.1 Spark 中的相应组件 1.2 Standalone 模式安装 1.2.1 提交应用程序概述 ...
分类:
其他好文 时间:
2019-06-23 01:11:03
阅读次数:
88
ShuffleManager(一) 本篇,我们来看一下spark内核中另一个重要的模块,Shuffle管理器ShuffleManager。shuffle可以说是分布式计算中最重要的一个概念了,数据的join,聚合去重等操作都需要这个步骤。另一方面,spark之所以比mapReduce的性能高其中一个 ...
分类:
其他好文 时间:
2019-06-15 09:57:51
阅读次数:
87
MemoryManager内存管理器 内存管理器可以说是spark内核中最重要的基础模块之一,shuffle时的排序,rdd缓存,展开内存,广播变量,Task运行结果的存储等等,凡是需要使用内存的地方都需要向内存管理器定额申请。我认为内存管理器的主要作用是为了尽可能减小内存溢出的同时提高内存利用率。 ...
分类:
其他好文 时间:
2019-06-13 09:17:47
阅读次数:
111
一些名词概念 以yarn-cluster模式为例 Spark-submit提交源码解析 yarn的调度流程 https://www.cnblogs.com/shengyang17/p/10321228.html RDD中的数据变成一个个分区的数据,一个个分区变成任务 RDD(对数据计算逻辑的 抽象, ...
分类:
其他好文 时间:
2019-04-19 00:49:07
阅读次数:
133