Spark 集群搭建

时间：2018-06-27 18:52:36 阅读：229 评论：0 收藏：0 [点我收藏+]

标签：实时 com ast 2.7 highlight 内存 home 集群计算模块

Apache Spark 一个很快多用途的集群计算系统。提供了很多语言API ：Java, Scala, Python and R，还支持很多高级的工具，包括Spark SQL用于SQL和结构化数据的处理，MLlib机器学习，GraphX 用于图形处理和Spark Streaming. 总的说：Spark 支持离线计算、实时计算、机器学习。

Spark为什么快呢，

1、如果没有需要，Spark处理的数据可以一直在内存直至该条数据计算结束。Hadoop MR M->R过程需要shuffle 磁盘

2、task启动时间比较快，Spark是fork出线程；而MR是启动一个新的进程

Spark会根据任务去切分stage（根据宽依赖和窄依赖），每个STAGE 都会是一个线程、一个task。hadoop 总的是分成map和reduce两个过程（这边不谈 combine sort 等过程），而spark 根据代码把一个job 分成若干个stage，每个stage 处理不同阶段的数据。

Spark 主要分为 Master 和 Worker 两个模块，Master 主要是管理，Worker 跑一些 Job

1、准备

下载 Spark tar包（spark-2.2.1-bin-hadoop2.7.tgz ），主机，主机安装JDK8

我这边搭建的是非HA（High Available）

2、安装

安装无非就是把服务的配置文件改一下

查看目录如下：

技术分享图片

conf 下的目录如下，都是一些模板文件，我们需要slave.template 和 spark-env.sh.template 复制出来，并去掉template 的后缀。slaves 是Worker 的 ip 或者域名，作用就是启动spark的时候可以用ssh 远程启动 Worker。spark-env.sh 是Spark 的一些环境技术分享图片

cp slave.template slave
cp spark-env.sh.template spark-env.sh

直接在文件末尾追加ip 或者域名

我这边是配置 c2,c4,c5 为work 如果单机就配置 localhost 或者 127.0.0.1等

技术分享图片

在spark-env.sh末尾追加

export JAVA_HOME=/usr/java/jdk1.8.0_131    #添加jdk环境变量
export SPARK_MASTER_IP=s1                         #添加master ip 或者 域名
export SPARK_MASTER_PORT=7077                 #master 通信端口

　技术分享图片

启动

运行spark目录下的sbin/start-all.sh（PS：内网的话，关掉防火墙或者一个一个的开启端口）

启动之后可以通过spark webui 去访问 masterIP+8080

sbin/start-all.sh

Spark 集群搭建

标签：实时 com ast 2.7 highlight 内存 home 集群计算模块

原文地址：https://www.cnblogs.com/eggplantpro/p/9235288.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行