使用yarn安装spark集群

时间：2021-01-01 12:18:40 阅读：0 评论：0 收藏：0 [点我收藏+]

由于之前已经搭建好了，今天是看视频回顾下，然后做下记录。

之前已经搭建好了Yarn集群，现在在Yarn集群上搭建spark。

1、安装spark

下载源码包：
wget http://mirror.bit.edu.cn/apache/spark/spark-1.3.0/spark-1.3.0.tgz

解压：
tar zxvf spark-1.3.0.tgz

配置：
解压后进去conf文件夹
cp spark-env.sh.template spark-env.sh
修改spark-env.sh文件

export SCALA_HOME=/usr/local/src/scala-2.11.4
export JAVA_HOME=/usr/local/src/jdk1.7.0_45
export HADOOP_HOME=/usr/local/src/hadoop-2.6.1
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_MASTER_IP=master
SPARK_LOCAL_DIRS=/usr/local/src/spark-1.6.0-bin-hadoop2.6
SPARK_DRIVER_MEMORY=1G

设置从节点：
cp slaves.template slaves
修改slaves文件

slave1
slave2

设置好之后，保持每个节点都一致，将配置文件分发到每个从节点上

scp slaves root@192.168.181.12:/usr/local/src/spark-1.6.0-bin-hadoop2.6/conf
scp slaves root@192.168.181.13:/usr/local/src/spark-1.6.0-bin-hadoop2.6/conf

启动spark
在master节点执行以下命令：

./sbin/start-all.sh

判断是否起送

技术图片

如果再master节点上执行jps后看到master，在slave节点上执行jps后看到work，基本上就可以判断是启动成功了。

验证spark

本地模式：

./bin/run-example SparkPi 10 --master local[2]

集群模式——standalone（独立集群）
# ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 lib/spark-examples-1.6.0-hadoop2.6.0.jar 100
集群模式——yarn（与hadoop共享平台）
                1）yarn-client：AM（driver）在本地启动并提交作业，更适合交互、调试的方便
                2）yarn-cluster：AM（driver）在某一个NM启动并提交作业
# ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster lib/sparkexamples-1.6.0-hadoop2.6.0.jar 10
AM：用来管理任务
RM：用来做资源分配

技术图片

如何判断是哪种模式，就看任务在哪：

yarn-cluster模式：
技术图片

yarn-client模式：
技术图片

yarn-client模式更适合调试：

因为任务在本地跑，有一些log日志输出可以实时的在终端反馈。

技术图片

在spark的app里面，是通过action来区分不同的job的
        算子分为两类：action（行动算子）、transformation（转换算子）
        job里面stage是通过shuffle来区分的（窄依赖、宽依赖）
        stage里包含多个task（线程）

        spark任务是多线程模型，Mapreduce是多进程模型

用赊账来理解：中间过程就是转换，结尾就是一个action
技术图片

技术图片

spark中task是线程，那么线程的启动就需要进程来实现，这个线程就是executor
一个executor包包含着线程池。
技术图片

技术图片

DAG是有向无环图

技术图片

mapreduce为什么会慢，是因为在中间的环节数据会落地，具体就是在map阶段。

启动spark要涉及一些参数：
    executor-memory：每个executor内存多大
    num-executors：多少个executor进程
    executor-cores：每个exector进程，虚拟core cpu资源

技术图片

算子分为两种：
        （1）Transformation（转换算子）——转换并不是触发提交，完成作业中间过程处理
                    延迟计算——懒惰机制
                    
                    算子细分：
                    a）一对一：map、flatmap
                    b）多对一：union、cartesian
                    c）多对多：groupby
                    d）输出是否是输入子集合：filter、distinct
                    e）cache类：cache、persist（cache是persist中的一种特殊形式） 
　　　　　　　　　　　　f）聚集： reduceByKey、combineByKey、PartitionBy 
　　　　　　　　　　　　g）连接： join、leftOutJoin、rightOutJoin 
　　　　　　（2）Action（行为算子）——触发（sparkcontext：sc）作业，可以将结果输出hdfs、hbase、kafka、console 
　　　　　　　　　　a）无输出：foreach 
　　　　　　　　　　b）有输出：saveAsTextFile 
　　　　　　　　　　c）统计类：count、collect、take

算子细分：

一对一：

技术图片

多对一：

技术图片

多对多：

技术图片

RDD——弹性分布式数据集
            RDD是什么？（RDD不是数据，RDD也不存数据，只存储数据的分区信息和读取方法（HDFS、其他RDD））
            1）弹性：
                    a）内存和磁盘之间会同步数据
                    b）RDD可以变成另一个RDD
                    c）RDD内部存储数据类型丰富
            2）依赖（向上依赖）
                 a）顶部RDD——数据源
                 b）非顶部RDD：记录自己来源于谁——血统（lineage）

                    宽依赖、窄依赖：
                            窄依赖：以流水线的方式计算分区
                            宽依赖：必须计算好父分区的数据，然后进行shuffle

                    失效问题处理：
                            窄依赖：只需要计算丢失RDD分区的父分区，不同节点可以并行
                            宽依赖：单点失效了，可能导致整个RDD所有祖先丢失的分区重新计算

                3）怎么读取？
                        a）有存储级别：判断是否有缓存，缓存-磁盘
                        b）无存储级别：直接磁盘读

技术图片

使用yarn安装spark集群

标签：回顾多对一 env 磁盘是什么方法子集合今天共享

原文地址：https://www.cnblogs.com/itpython/p/14199661.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行