标签:添加 jar template cto 修改 文件 java spark EDA
// 1. 准备安装包(见下方参考资料): spark-2.1.3-bin-hadoop2.7.tgz
// 2. 修改配置文件
// 2.1 spark-env.sh.template
mv spark-env.sh.template spark-env.sh
SPARK_MASTER_HOST=IP地址
SPARK_MASTER_PORT=7077
// 3. 启动
sbin/start-all.sh
// 4. 浏览器访问
http://IP地址:8080
// 5. 测试官方案例
bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://IP地址:7077 --executor-memory 1G --total-executor-cores 2 ./examples/jars/spark-examples_2.11-2.1.3.jar 100
// 6. 使用 Spark Shell 测试 WordCount
bin/spark-shell --master spark://10.110.147.193:7077
sc.textFile("./RELEASE").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://IP地址:7077 --executor-memory 1G --total-executor-cores 2 ./examples/jars/spark-examples_2.11-2.1.3.jar 100
--class
: 应用程序的启动类,例如,org.apache.spark.examples.SparkPi
;--master
: 集群的master URL;deploy-mode
: 是否发布你的驱动到worker节点(cluster)或者作为一个本地客户端(client);--conf
: 任意的Spark配置属性,格式:key=value
,如果值包含空格,可以加引号"key=value";
application-jar
:打包好的应用 jar,包含依赖,这个URL在集群中全局可见。比如hdfs://共享存储系统
,如果是file://path
,那么所有节点的path都包含同样的jar;application-arguments
: 传给main()
方法的参数;spark-defaults.conf.template
名称:mv spark-defaults.conf.template spark-defaults.conf
;spark-defaults.conf
文件,开启 Log:
spark.eventLog.enabled true
;spark.eventLog.dir hdfs://IP地址:9000/directory
;spark-env.sh
文件,添加如下配置:
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=4000 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://IP地址:9000/directory"
;sbin/start-history-server.sh
;org.apache.spark.examples.SparkPi
;http//IP地址:4000
;spark-env.sh
文件,添加如下配置:
SPARK_MASTER_HOST=IP地址
;SPARK_MASTER_PORT=7077
export SPARK_DEAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=IP地址1, IP地址2, IP地址3 -Dspark.deploy.zookeeper.dir=/spark"
标签:添加 jar template cto 修改 文件 java spark EDA
原文地址:https://www.cnblogs.com/linkworld/p/11070946.html