标签:file 完成 type 根目录 source 应用程序 apache work cat
目录
@(关于org.apache.spark.deploy.yarn.Client类)
这个伴生类主要功能是创建/配置ApplicationMaster的应用程序,,准备相关的环境与资源。
Github源码地址:https://github.com/apache/spark/blob/master/resource-managers/yarn/src/main/scala/org/apache/spark/deploy/yarn/Client.scala
将运行ApplicationMaster的应用程序提交到ResourceManager。
主要逻辑有:
- 从RM获取新的应用程序
- 设置应用程序的staging目录:如果配置STAGING_DIR,则使用其值作为staging目录。否则使用用户的home目录。
- 验证群集是否有足够的资源用于AM
- 设置适当的上下文以启动我们的AM
- 最后,提交并监控应用程序
==设置提交ApplicationMaster的上下文。==
主要逻辑如下:
spark.yarn.driver.resource
相关的配置。否则使用spark.yarn.am.resource
相关的配置ApplicationName
QUEUE_NAME
containerContext
ApplicationType
APPLICATION_TAGS
MAX_APP_ATTEMPTS
capability.setMemory(amMemory + amMemoryOverhead)
capability.setVirtualCores(amCores)
其他配置
设置安全令牌以启动我们的ApplicationMaster容器。
在客户端模式下,调度程序已获取一组凭据,因此将它们复制并发送到AM。 在群集模式下,获取新凭据,然后将其与当前用户已有的任何凭据一起发送到AM。
从ResourceManager获取我们提交的应用程序的应用程序报告。
返回此客户端使用的安全令牌以与ApplicationMaster通信。 如果未启用安全性,则报告返回的标记为空。
检查分配的资源是否合理,如果我们请求每个容器的资源多于群集中可用的资源,则会失败。
主要逻辑:
val maxMem = newAppResponse.getMaximumResourceCapability().getMemory()
val executorMem = executorMemory + executorMemoryOverhead + pysparkWorkerMemory
//compare if executorMem > maxMem
//...
val amMem = amMemory + amMemoryOverhead
//compare if amMem > maxMem
//...
如果需要,将给定资源文件复制到远程文件系统(例如HDFS)。仅当源和目标文件系统不同或源方案为“file”时,才会复制该文件。 用于准备启动ApplicationMaster容器的资源,例如用户其他的其他辅助文件。
如果需要,将任何资源上载到分布式缓存。 如果要在本地使用资源,请为下游代码设置适当的配置以正确处理它。 这用于为ApplicationMaster设置容器启动上下文。
远程目录地址
stagingDirPath = new Path(appStagingBaseDir, getAppStagingDir(appId))
将文件分发到群集。
如果文件的路径是“local:”URI,它实际上不是分发的,而其他文件将被复制到HDFS(如果还没有)并添加到应用程序的分布式缓存中。
主要逻辑:
请注意,存档不能是“本地”URI。 如果未找到上述任何设置,则上传$ SPARK_HOME/jars中找到的所有文件。
手动将配置存档添加到缓存管理器,以便在设置正确文件的情况下启动AM。
使用配置文件创建存档以进行分发。
这些将由AM和执行者使用。 这些文件被压缩并作为存档添加到作业中,因此YARN会在分发给AM和执行程序时进行解压。 然后将此目录添加到AM和执行程序进程的类路径中,以确保每个人都使用相同的默认配置。
这遵循启动脚本设置的优先顺序,其中HADOOP_CONF_DIR在YARN_CONF_DIR之前的类路径中显示。
存档还包含一些Spark配置。 即,它将SparkConf的内容保存在由AM进程加载的文件中。
设置启动ApplicationMaster容器的环境。如DRIVER_CLASS_PATH
, PYTHONPATH
,PYSPARK_DRIVER_PYTHON
, PYSPARK_PYTHON
, PYTHONHASHSEED
等
设置ContainerLaunchContext以启动我们的ApplicationMaster容器。 这将设置启动环境,java选项以及启动AM的命令。
报告应用程序的状态,直到它已成功或由于某些故障退出,然后返回一对纱线应用状态(FINISHED, FAILED, KILLED, or RUNNING)和最终应用状态(FINISHED, FAILED, KILLED, or RUNNING)。
将应用程序提交到ResourceManager。
如果将spark.yarn.submit.waitAppCompletion设置为true,它将保持活动状态,报告应用程序的状态,直到应用程序因任何原因退出。 否则,客户端进程将在提交后退出。
如果应用程序以失败,终止或未定义状态完成,则抛出适当的SparkException。
关于org.apache.spark.deploy.yarn.Client类
标签:file 完成 type 根目录 source 应用程序 apache work cat
原文地址:https://www.cnblogs.com/lestatzhang/p/10812347.html