码迷,mamicode.com
首页 > 其他好文 > 详细

Spark源码剖析——SparkContext的初始化(四)_Hadoop相关配置及Executor环境变量

时间:2018-07-15 23:13:01      阅读:233      评论:0      收藏:0      [点我收藏+]

标签:环境变量   hdf   注册   配置   源码剖析   oop   注意   分享图片   分享   

4. Hadoop相关配置及Executor环境变量的设置

4.1 Hadoop相关配置信息

默认情况下,Spark使用HDFS作为分布式文件系统,所以需要获取Hadoop相关配置信息的代码如下:

技术分享图片

获取的配置信息包括:

  • 将Amazon S3文件系统的AccessKeyId和SecretAccessKey加载到Hadoop的Configuration;
  • 将SparkConf中所有以spark.hadoop. 开头的属性都复制到Hadoop的Configuration;
  • 将SparkConf的属性spark.buffer.size复制为Hadoop的Configuration的配置io.file.buffer.size;

注意:如果指定了SPARK_YARN_MODE属性,则会使用YarnSparkHadoopUtil,否则默认为SparkHadoopUtil。

4.2 Executor环境变量

对Executor的环境变量的处理,见代码如下。executorEnvs包含的环境变量将会在注册应用的过程中发送给Master,Master给Worker发送调度后,Worker最终使用executorEnvs提供的信息启动Executor,可以通过配置spark.executor.memory指定Executor占用的内存大小,也可以配置系统变量SPARK_EXECUTOR_MEMORY或者SPARK_MEM对其大小进行设置。代码如下:

技术分享图片

 

Spark源码剖析——SparkContext的初始化(四)_Hadoop相关配置及Executor环境变量

标签:环境变量   hdf   注册   配置   源码剖析   oop   注意   分享图片   分享   

原文地址:https://www.cnblogs.com/swordfall/p/9306113.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!