Spark 内存管理 Spark 执行应用程序时, 会启动 Driver 和 Executor 两种 JVM 进程 Driver 负责创建 SparkContext 上下文, 提交任务, task的分发等。 Executor 负责 task 的计算任务, 并将结果返回给 Driver, 同时需要为需 ...
分类:
其他好文 时间:
2019-10-26 15:35:36
阅读次数:
95
一:Sparksql列操作 初始化SparkContext及数据: import java.util.Arrays import org.apache.spark.SparkConfimport org.apache.spark.api.java.JavaSparkContextimport org ...
分类:
数据库 时间:
2019-10-20 10:35:33
阅读次数:
100
Spark SQL是处理结构化的数据,可以存储在二维表中,类似数据库中的表一样存储数据 Spark1.x val sqlContext = new SparkContext(conf) val sqlContext = new SQLContext(sc) //将RDD和Schema信息关联到一起, ...
分类:
数据库 时间:
2019-10-04 11:28:54
阅读次数:
107
集群架构 SparkContext底层调度模块 Spark集群架构细化 ...
分类:
其他好文 时间:
2019-09-25 01:09:34
阅读次数:
82
版本:spak2.3 相关源码:org.apache.spark.SparkContext 在创建spark任务时候,往往会指定一些依赖文件,通常我们可以在spark-submit脚本使用--files /path/to/file指定来实现。 但是架构上是通过livy来调spark任务,livy的实 ...
分类:
其他好文 时间:
2019-09-21 16:42:14
阅读次数:
115
1.1.1.读取Socket数据 ●准备工作 nc -lk 9999 hadoop spark sqoop hadoop spark hive hadoop ●代码演示: import org.apache.spark.SparkContext import org.apache.spark.sql ...
分类:
其他好文 时间:
2019-09-11 10:06:19
阅读次数:
126
Spark分布式执行涉及的组件 每个Spark应用都由一个 驱动程序 来发起集群上的各种并行操作,驱动程序通过一个 SparkContext对象 访问Spark;驱动程序管理多个 执行器节点 ,可以用SparkContext来创建RDD。 RDD(Resilient Distributed Data ...
分类:
其他好文 时间:
2019-09-02 00:10:07
阅读次数:
110
https://github.com/apache/spark/blob/branch-2.4/core/src/main/scala/org/apache/spark/SparkContext.scala https://github.com/apache/spark/blob/branch-2. ...
分类:
其他好文 时间:
2019-08-31 19:32:55
阅读次数:
99
一、Spark运行流程 1、构建Spark Application的运行环境(启动SparkContext),SparkContext向资源管理器(可以是Standalone、Mesos或YARN)注册并申请运行Executor资源; 2、资源管理器分配Executor资源并启动Standalone ...
分类:
其他好文 时间:
2019-08-29 20:01:04
阅读次数:
65
在介绍Spark中的任务和资源之前先解释几个名词: Dirver Program:运行Application的main函数(用户提交的jar包中的main函数)并新建SparkContext实例的程序,称为驱动程序,通常用SparkContext代表驱动程序(任务的驱动程序)。 Cluster Ma ...
分类:
其他好文 时间:
2019-08-27 00:55:33
阅读次数:
144