1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 答: Hadoop对应于Google三驾马车:HDFS对应于GFS,即分布式文件系统,MapReduce即并行计算框架,HBase对应于BigTabl ...
分类:
其他好文 时间:
2021-03-15 10:30:53
阅读次数:
0
1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。 Hadoop的核心是HDFS和MapReduce,hadoo ...
分类:
其他好文 时间:
2021-03-15 10:30:41
阅读次数:
0
设置metastore 机器: ke01、ke02、ke03、ke04 ke03 为元数据库 ke01、ke02、ke04 连接到元数据库 、 hive-metastore搭建 ke03: <configuration> <property> <name>hive.metastore.warehou ...
分类:
数据库 时间:
2021-03-12 13:42:56
阅读次数:
0
Spark的五种JOIN策略解析 JOIN操作是非常常见的数据处理操作,Spark作为一个统一的大数据处理引擎,提供了非常丰富的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略,希望对你有所帮助。本文主要包括以下内容: 影响JOIN操作的因素 Spark中JOIN执行的5种策略 Spa ...
分类:
其他好文 时间:
2021-03-10 13:42:57
阅读次数:
0
问题描述 在迁移虚拟机到其他主机中,在「选择目标」步骤时,被选中主机提示「虚拟机版本与主机“x.x.x.x”的版本不兼容」错误。 本文将介绍如何处理该迁移错误。 问题原因 运行在ESXi中的每台虚拟机,都有一个「硬件版本号」。在vSphere Client中,显示为「虚拟机版本」: 目标主机运行「E ...
分类:
系统相关 时间:
2021-03-06 14:44:30
阅读次数:
0
RDD算子调优 不废话,直接进入正题! 1. RDD复用 在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算,如下图所示: 对上图中的RDD计算架构进行修改,得到如下图所示的优化结果: 2. 尽早filter 获取到初始RDD后,应该考虑尽早地过滤掉不需要的数据,进而减少对内 ...
分类:
其他好文 时间:
2021-03-06 14:22:58
阅读次数:
0
简介: 快手基于 Flink 的持续优化与实践的介绍。 一、Flink 稳定性持续优化 第一部分是 Flink 稳定性的持续优化。该部分包括两个方面,第一个方面,主要介绍快手在 Flink Kafka Connector 方面做的一些高可用,是基于内部的双机房读或双机房写和一些容错的策略。第二部分关 ...
分类:
其他好文 时间:
2021-03-05 12:54:40
阅读次数:
0
Application Application=a driver program + executors 一般来说:1个SparkContext = 1个application=1个SparkShell Spark提交任务不一定须在集群里提交,有gateway就行 1个application ==> ...
分类:
系统相关 时间:
2021-03-04 13:20:14
阅读次数:
0
Spark 运行时相关概念 从集群的物理层面 Master 节点:部署 Cluster Manager的节点 Slave 节点:部署 Worker 的节点,每个节点可以有多个 Worker 进程 从进程层面(与所执行的应用无关) Cluster Manager:管理集群的 CPU、内存等资源,为不同 ...
分类:
其他好文 时间:
2021-03-03 12:14:39
阅读次数:
0
1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 HDFS(Hadoop分布式文件系统)是Hadoop体系中 数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于 ...
分类:
其他好文 时间:
2021-03-02 12:24:42
阅读次数:
0