Spark 基础操作

时间：2019-06-23 01:11:03 阅读：88 评论：0 收藏：0 [点我收藏+]

标签：添加 jar template cto 修改文件 java spark EDA

1. Spark 基础

2. Spark Core

3. Spark SQL

4. Spark Streaming

5. Spark 内核机制

6. Spark 性能调优

1. Spark 基础

1.1 Spark 中的相应组件

技术图片

1.2 Standalone 模式安装

// 1. 准备安装包(见下方参考资料): spark-2.1.3-bin-hadoop2.7.tgz

// 2. 修改配置文件
// 2.1 spark-env.sh.template
mv spark-env.sh.template spark-env.sh
SPARK_MASTER_HOST=IP地址
SPARK_MASTER_PORT=7077

// 3. 启动
sbin/start-all.sh

// 4. 浏览器访问
http://IP地址:8080

// 5. 测试官方案例
bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://IP地址:7077 --executor-memory 1G --total-executor-cores 2 ./examples/jars/spark-examples_2.11-2.1.3.jar 100

// 6. 使用 Spark Shell 测试 WordCount
bin/spark-shell --master spark://10.110.147.193:7077

sc.textFile("./RELEASE").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

1.2.1 提交应用程序概述

bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://IP地址:7077 --executor-memory 1G --total-executor-cores 2 ./examples/jars/spark-examples_2.11-2.1.3.jar 100
- --class: 应用程序的启动类,例如,org.apache.spark.examples.SparkPi;
- --master: 集群的master URL;
- deploy-mode: 是否发布你的驱动到worker节点(cluster)或者作为一个本地客户端(client);
- --conf: 任意的Spark配置属性,格式:key=value,如果值包含空格,可以加引号"key=value";
- application-jar:打包好的应用 jar,包含依赖,这个URL在集群中全局可见。比如hdfs://共享存储系统,如果是file://path,那么所有节点的path都包含同样的jar;
- application-arguments: 传给main()方法的参数;

1.3 JobHistoryServer 配置

修改spark-defaults.conf.template名称:mv spark-defaults.conf.template spark-defaults.conf;
修改spark-defaults.conf文件,开启 Log:
- spark.eventLog.enabled true;
- spark.eventLog.dir hdfs://IP地址:9000/directory;
- 注意:HDFS 上的目录需要提前存在;
修改 spark-env.sh 文件,添加如下配置:
- export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=4000 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://IP地址:9000/directory";
开启历史服务:sbin/start-history-server.sh;
执行上面的程序:org.apache.spark.examples.SparkPi;
访问:http//IP地址:4000;

1.4 Spark HA 配置

zookeeper 正常安装并启动;
修改 spark-env.sh 文件,添加如下配置:
- 注释掉:
  - SPARK_MASTER_HOST=IP地址;
  - SPARK_MASTER_PORT=7077
- export SPARK_DEAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=IP地址1, IP地址2, IP地址3 -Dspark.deploy.zookeeper.dir=/spark"

1.5 Yarn 模式安装

Spark 基础操作

标签：添加 jar template cto 修改文件 java spark EDA

原文地址：https://www.cnblogs.com/linkworld/p/11070946.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行