码迷,mamicode.com
首页 >  
搜索关键字:spark内核    ( 56个结果
Spark内核源码解析十四:checkpoint原理剖析
Checkpoint,是Spark提供的一个比较高级的功能。有的时候啊,比如说,我们的Spark应用程序,特别的复杂,然后呢,从初始的RDD开始,到最后整个应用程序完成,有非常多的步骤,比如超过20个transformation操作。而且呢,整个应用运行的时间也特别长,比如通常要运行1~5个小时。在 ...
分类:其他好文   时间:2020-05-19 09:12:08    阅读次数:88
Spark内核源码继续五:Master原理解析和源码解析
上篇已经降到AppClient找Master进行注册,本章主要解析Master的原理和源码解析 1、Master的主备切换原理 package org.apache.spark.deploy.master completeRecovery,过滤没有响应的worker,app,drivers,从内存缓 ...
分类:其他好文   时间:2020-05-11 15:54:04    阅读次数:62
Spark内核源码解析四:SparkContext原理解析和源码解析
源码解析 主构造函数代码 private[spark] var (schedulerBackend, taskScheduler) = SparkContext.createTaskScheduler(this, master) createTaskScheduler,创建TaskScheduler ...
分类:其他好文   时间:2020-05-10 23:08:55    阅读次数:63
2020.2.12
一、大数据spark 跟着b站的尚硅谷大数据往后学习了8个知识点。 同时把scala的知识点学习了一下。 视频号: av62992342 av64039811 内容:Spark内核 课程学习进度:87/126 二、《一线架构师实践指南》阅读 阅读了第十四章 物理架构、运行架构、开发架构 ...
分类:其他好文   时间:2020-02-12 22:28:24    阅读次数:64
【Spark 内核】 Spark 内核解析-下
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库... ...
分类:其他好文   时间:2020-01-13 19:42:03    阅读次数:78
Spark内核概述
1、Spark核心组件 1.1 Cluster Manager(Master,ResourceManager) Spark的集群管理器,主要负责对整个集群资源的分配与管理 Cluster Manager 在 Yarn 部署模式下为 ResourceManager 在 Mesos 部署模式下为 Mes ...
分类:其他好文   时间:2019-12-22 14:51:31    阅读次数:93
Spark 基础操作
1. Spark 基础 2. Spark Core 3. Spark SQL 4. Spark Streaming 5. Spark 内核机制 6. Spark 性能调优 1. Spark 基础 1.1 Spark 中的相应组件 1.2 Standalone 模式安装 1.2.1 提交应用程序概述 ...
分类:其他好文   时间:2019-06-23 01:11:03    阅读次数:88
spark源码阅读--shuffle过程分析
ShuffleManager(一) 本篇,我们来看一下spark内核中另一个重要的模块,Shuffle管理器ShuffleManager。shuffle可以说是分布式计算中最重要的一个概念了,数据的join,聚合去重等操作都需要这个步骤。另一方面,spark之所以比mapReduce的性能高其中一个 ...
分类:其他好文   时间:2019-06-15 09:57:51    阅读次数:87
spark内存管理器--MemoryManager源码解析
MemoryManager内存管理器 内存管理器可以说是spark内核中最重要的基础模块之一,shuffle时的排序,rdd缓存,展开内存,广播变量,Task运行结果的存储等等,凡是需要使用内存的地方都需要向内存管理器定额申请。我认为内存管理器的主要作用是为了尽可能减小内存溢出的同时提高内存利用率。 ...
分类:其他好文   时间:2019-06-13 09:17:47    阅读次数:111
Spark内核
一些名词概念 以yarn-cluster模式为例 Spark-submit提交源码解析 yarn的调度流程 https://www.cnblogs.com/shengyang17/p/10321228.html RDD中的数据变成一个个分区的数据,一个个分区变成任务 RDD(对数据计算逻辑的 抽象, ...
分类:其他好文   时间:2019-04-19 00:49:07    阅读次数:133
56条   1 2 3 4 ... 6 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!