shuffle读过程源码分析 上一篇中,我们分析了shuffle在map阶段的写过程。简单回顾一下,主要是将ShuffleMapTask计算的结果数据在内存中按照分区和key进行排序,过程中由于内存限制会溢写出多个磁盘文件,最后会对所有的文件和内存中剩余的数据进行归并排序并溢写到一个文件中,同时会记 ...
分类:
其他好文 时间:
2019-06-16 20:11:09
阅读次数:
133
ShuffleManager(一) 本篇,我们来看一下spark内核中另一个重要的模块,Shuffle管理器ShuffleManager。shuffle可以说是分布式计算中最重要的一个概念了,数据的join,聚合去重等操作都需要这个步骤。另一方面,spark之所以比mapReduce的性能高其中一个 ...
分类:
其他好文 时间:
2019-06-15 09:57:51
阅读次数:
87
讨论QQ:1586558083 目录 一、概述 二、源码解读 2.2 find-spark-home 2.3 spark-class 2.4 SparkSubmit 正文 回到顶部 一、概述 上一篇主要是介绍了spark启动的一些脚本,这篇主要分析一下Spark源码中提交任务脚本的处理逻辑,从spa ...
分类:
其他好文 时间:
2019-06-11 13:22:42
阅读次数:
127
Spark 2.1.1 源码编译 标签(空格分隔): Spark Spark 源码编译 环境准备与起因 由于线上Spark On Yarn Spark Streaming程序在消费kafka 写入HDFS table 使用Partition by 和 Savemode.append,在一定条件下导致 ...
分类:
其他好文 时间:
2019-05-18 00:45:07
阅读次数:
191
Spark 通信架构 1、spark 一开始使用 akka 作为网络通信框架,spark 2.X 版本以后完全抛弃 akka,而使用 netty 作为新的网络通信框架。最主要原因:spark 对 akka 没有维护,需要 akka 更新,spark 的发展受到了 akka 的牵制,akka 版本之间 ...
分类:
其他好文 时间:
2019-05-02 21:48:37
阅读次数:
152
IDEA 全称 IntelliJ IDEA,是 java 语言开发的集成环境(IDE),IntelliJ 在业界被公认为最好的 java 开发工具之一,尤其在智能代码助手、代码自动提示、重构、J2EE 支持、Ant、JUnit、CVS整合、代码审查、 创新的 GUI 设计等方面的功能可以说是超常的。 ...
分类:
其他好文 时间:
2019-03-03 22:11:31
阅读次数:
655
package com.dt.spark.scala.bascis object Functional_Itearal { def main(args: Array[String]): Unit = { val range = 1 to 10 val list = List(1,2,3,4,5) p... ...
分类:
其他好文 时间:
2018-11-21 19:45:51
阅读次数:
136
package com.dt.spark.scala.bascis class Dataframework case class Computerframework (name:String,popular:Boolean) extends Dataframework case class Stor... ...
分类:
其他好文 时间:
2018-11-21 18:37:09
阅读次数:
174
本课内容1.Spark中Scala集合操作鉴赏2.Scala集合操作实战 /** * 大数据技术是数据的集合以及对数据集合的操作技术的统称,具体来说: * 1.数据集合:会涉及数据的搜集、存储等,搜集会有很多技术,存储现在比较经典的是使用Hadoop, * 也有很多情况使用Kafka(消息中间件,也 ...
分类:
其他好文 时间:
2018-11-20 15:07:07
阅读次数:
183
/** * 如果有这些语法的支持,我们说这门语言是支持面向对象的语言 * 其实真正面向对象的精髓是不是封装、继承、多态呢? * >肯定不是,封装、继承、多态,只不过是支撑面向对象的 * 一些语言级别的语法和功能,真正的面向对象其实有三个核心特征: * 第一:对象不用关心消息从哪里来,也不关心消息到哪 ...
分类:
其他好文 时间:
2018-11-20 15:00:56
阅读次数:
120