Spark HA高可用部署

时间：2018-12-04 11:23:35 阅读：10140 评论：0 收藏：0 [点我收藏+]

1.说明：

Spark Standalone 集群是Master--Slaves架构的集群模式，和大部分的Master--Slaves 结构集群一样，存在着Master单点故障的问题。Spark提供了两种解决方案去解决这个单点故障的问题；

方案一：基于文件系统的单点恢复

主要用于开发或测试环境，spark提供目录保存spark Application 和worker的注册信息，并将他们的恢复状态写入该目录中，这时，一旦Master发生故障，就可以通过重新启动Master进程（sbin/strart--master.sh），恢复已运行的spark Application 和 worker 的注册信息。（简单说就是需要自己亲自再去启动master）

方案二：基于zookeeper的 Standby Masters

主要用于生产模式。其基本原理是通过zookeeper来选举一个Master，其他的Master处于Standby状态。将spark集群连接到同一个zookeeper实例并启动多个Master，利用zookeeper提供的选举和状态保存功能，可以使一个Master被选举成活着的master，而其他Master处于Standby状态。如果现任Master宕机，另一个Master会通过选举产生并恢复到旧的Master状态，然后恢复状态。整个恢复过程可能要1-2分钟。

2.基于zookeeper的spark HA 高可用集群部署

该HA方案使用起来很简单，首先需要搭建一个zookeeper集群然后启动zookeeper集群，最后在不同节点上启动Master。具体配置如下：

（1）vim spark-env.sh

注释掉export SPARK_MASTER_HOST=hdp--node--01

（2）在spark-env.sh添加SPARK_DAEMON_JAVA_OPTS，内容如下：

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER - Dspark.deploy.zookeeper.url=hdp-node-01:2181,hdp-node-02:2181,hdp-node-03:2181 -Dspark.deploy.zookeeper.dir=/spark"

参数说明：

1.spark.deploy.recoveryMode：恢复模式（Master 重新启动的模式）：有三种：（1）:zookeeper（2）:FileSystem（3）:none

2.spark.deploy.zookeeper.url：zookeeper的server地址

3.spark.deploy.zookeeper.dir：保存集群元数据信息的文件，目录。包括Worker，Driver和Application。

注意：

在普通模式下启动spark集群，只需要在主机上面执行start-all.sh就可以了。

在高可用模式下启动spark集群，现需要在任意一台节点上启动start-all，然后在另外一台节点上单独启动master。命令：start-master.sh

Spark HA高可用部署

标签：参数说明运行 RKE art ica 单点故障文件参数搭建

原文地址：https://www.cnblogs.com/chengwentan/p/10062477.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行