Spark Client启动原理探索

时间：2018-01-20 01:00:24 阅读：139 评论：0 收藏：0 [点我收藏+]

标签：info pcl ima 技术 div end 自己 dep 分享

经过几天闲暇时间的学习，终于又理解的深入了一些，关于Spark Client如何提交作业也更清晰了点。

在整体的流程图上是这样的：
技术分享图片
大体的思路就是应用程序通过SparkSubmit提交程序后，自动在当前的JVM中启动Driver，然后与Master通信创建Excutor执行相应的任务。

自己整理了下流程图
技术分享图片

以及的组件图：
技术分享图片

可以看到大概是下面的步骤：

新建SparkContext

创建对应的scheduler和schedulerBackend

 val (sched, ts) = SparkContext.createTaskScheduler(this, master, deployMode)
_schedulerBackend = sched
_taskScheduler = ts
...
_taskScheduler.start()

启动scheduler的start方法，内部调用backend的start方法

backend调用父类CoarseGrainedSchedulerBackend的start方法

override def start() {
  super.start()
  ...
  client = new StandaloneAppClient(sc.env.rpcEnv, masters, appDesc, this, conf)
  client.start()
}

创建对应的drvierEndpoint
在backend的start()方法里面创建StandaloneAppClient
执行StanaloneAppClient对象的start方法，内部创建ClientEndpoint

DriverEndpoint和ClientEndpoint都会跟Master进行通信，接下来的处理就是编译驱动程序的代码，发送给excutor进行相应的处理。

Spark Client启动原理探索

标签：info pcl ima 技术 div end 自己 dep 分享

原文地址：https://www.cnblogs.com/xing901022/p/8319482.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行