搜索关键字：spark streaming 作业容错，搜索到29616个结果！码迷,mamicode.com！

01 Spark架构与运行流程

1. 阐述Hadoop生态系统中，HDFS, MapReduce, Yarn, Hbase及Spark的相互关系，为什么要引入Yarn和Spark。答: Hadoop对应于Google三驾马车：HDFS对应于GFS，即分布式文件系统，MapReduce即并行计算框架，HBase对应于BigTabl ...

分类：其他好文时间：2021-03-15 10:30:53 阅读次数：0

spark架构与运行流程

1. 阐述Hadoop生态系统中，HDFS, MapReduce, Yarn, Hbase及Spark的相互关系，为什么要引入Yarn和Spark。 Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。 Hadoop的核心是HDFS和MapReduce，hadoo ...

分类：其他好文时间：2021-03-15 10:30:41 阅读次数：0

spark-sql-04-on_hive

设置metastore 机器： ke01、ke02、ke03、ke04 ke03 为元数据库 ke01、ke02、ke04 连接到元数据库、 hive-metastore搭建 ke03: <configuration> <property> <name>hive.metastore.warehou ...

分类：数据库时间：2021-03-12 13:42:56 阅读次数：0

Spark中join的类型

Spark的五种JOIN策略解析 JOIN操作是非常常见的数据处理操作，Spark作为一个统一的大数据处理引擎，提供了非常丰富的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略，希望对你有所帮助。本文主要包括以下内容：影响JOIN操作的因素 Spark中JOIN执行的5种策略 Spa ...

分类：其他好文时间：2021-03-10 13:42:57 阅读次数：0

「VMware ESXi」- 虚拟机版本与主机“x.x.x.x”的版本不兼容 @20210305

问题描述在迁移虚拟机到其他主机中，在「选择目标」步骤时，被选中主机提示「虚拟机版本与主机“x.x.x.x”的版本不兼容」错误。本文将介绍如何处理该迁移错误。问题原因运行在ESXi中的每台虚拟机，都有一个「硬件版本号」。在vSphere Client中，显示为「虚拟机版本」：目标主机运行「E ...

分类：系统相关时间：2021-03-06 14:44:30 阅读次数：0

Spark性能调优-RDD算子调优篇（深度好文，面试常问，建议收藏）

RDD算子调优不废话，直接进入正题！ 1. RDD复用在对RDD进行算子时，要避免相同的算子和计算逻辑之下对RDD进行重复的计算，如下图所示：对上图中的RDD计算架构进行修改，得到如下图所示的优化结果： 2. 尽早filter 获取到初始RDD后，应该考虑尽早地过滤掉不需要的数据，进而减少对内 ...

分类：其他好文时间：2021-03-06 14:22:58 阅读次数：0

快手基于 Flink 的持续优化与实践

简介：快手基于 Flink 的持续优化与实践的介绍。一、Flink 稳定性持续优化第一部分是 Flink 稳定性的持续优化。该部分包括两个方面，第一个方面，主要介绍快手在 Flink Kafka Connector 方面做的一些高可用，是基于内部的双机房读或双机房写和一些容错的策略。第二部分关 ...

分类：其他好文时间：2021-03-05 12:54:40 阅读次数：0

Spark Core 02（理论），独立的进程集

Application Application=a driver program + executors 一般来说：1个SparkContext = 1个application=1个SparkShell Spark提交任务不一定须在集群里提交，有gateway就行 1个application ==> ...

分类：系统相关时间：2021-03-04 13:20:14 阅读次数：0

Spark 运行时相关概念

Spark 运行时相关概念从集群的物理层面 Master 节点：部署 Cluster Manager的节点 Slave 节点：部署 Worker 的节点，每个节点可以有多个 Worker 进程从进程层面(与所执行的应用无关) Cluster Manager：管理集群的 CPU、内存等资源，为不同 ...

分类：其他好文时间：2021-03-03 12:14:39 阅读次数：0

大数据概述

1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中，HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 HDFS（Hadoop分布式文件系统）是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于 ...

分类：其他好文时间：2021-03-02 12:24:42 阅读次数：0

共29616条上一页 1 ... 11 12 13 14 15 ... 2962 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)