搜索关键字：spark shuffle，搜索到7773个结果！码迷,mamicode.com！

spark rdd--分区理解

1.分区的作用 RDD 使用分区来分布式并行处理数据, 并且要做到尽量少的在不同的 Executor 之间使用网络交换数据, 所以当使用 RDD 读取数据的时候, 会尽量的在物理上靠近数据源, 比如说在读取 Cassandra 或者 HDFS 中数据的时候, 会尽量的保持 RDD 的分区和数据源的分 ...

分类：其他好文时间：2020-07-07 13:11:09 阅读次数：164

Kafka Streams与其他流处理平台的差异在哪里？

本文已收录GitHub，更有互联网大厂面试真题，面试攻略，高效学习资料等近些年来，开源流处理领域涌现出了很多优秀框架。光是在Apache基金会孵化的项目，关于流处理的大数据框架就有十几个之多，比如早期的ApacheSamza、ApacheStorm，以及这两年火爆的Spark以及Flink等。应该说，每个框架都有自己独特的地方，也都有自己的缺陷。面对这众多的流处理框架，我们应该如何选择呢？在本文汇

分类：其他好文时间：2020-07-07 11:38:26 阅读次数：67

Spark

1、Spark是什么 Spark是一个高性能内存处理引擎，它提供了基于RDD的数据抽象，能够灵活处理分布式数据集 2、Spark核心概念 RDD：弹性分布式数据集，它是一个只读的、带分区的数据集合，并支持多种分布式算子。由下面5部分构成：一组partition 每个partition的计算函数所 ...

分类：其他好文时间：2020-07-06 19:30:48 阅读次数：57

Spark快速入门之RDD编程模型

RDD(Resilient Distributed Dataset)叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个可分区，不可变，里面的元素可并行计算的结合。RDD具有自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显示地将工作集换存在内存中，后续的查询能够重用工作集 ...

分类：其他好文时间：2020-07-06 16:20:23 阅读次数：61

Spark 两种方法计算分组取Top N

Spark 分组取Top N运算大数据处理中，对数据分组后，取TopN是非常常见的运算。下面我们以一个例子来展示spark如何进行分组取Top的运算。 1、RDD方法分组取TopN from pyspark import SparkContext sc = SparkContext() 准备数据 ...

分类：其他好文时间：2020-07-06 16:11:05 阅读次数：78

IDEA创建Spark开发环境

下面安装的六步和通过Maven安装Java项目的方式相同如果刚安装完IDEA，直接点击[Create New Project] 左侧选择Maven，然后先勾选上部的[Create from archetype],然后右侧选择[maven-archetype-quickstart] 填写GroupI ...

分类：其他好文时间：2020-07-05 19:02:22 阅读次数：90

Spark DAG 依赖关系 Stage

DAG ：整个计算链可以抽象为一个DAG(有向无环图) Spark 的 DAG 作用：记录了RDD之间的依赖关系，即RDD是通过何种变换生成的，如下图：RDD1是RDD2的父RDD，通过flatMap操作生成借助RDD之间的依赖关系，可以实现数据的容错，即子分区(子RDD)数据丢失后，可以 ...

分类：其他好文时间：2020-07-05 17:29:07 阅读次数：56

Spark RDD

RDD概述 RDD：弹性分布式数据集，初学时，可以把RDD看做是一种集合类型（和Array，List类比） RDD的特点： ①有容错性，即数据丢失是可以恢复的 ②有分区机制，可以并行的处理RDD数据创建RDD的2种方式： ①将一个普通的集合类型(Array或List) ②通过Spark读取外部存储 ...

分类：其他好文时间：2020-07-05 15:15:06 阅读次数：66

Notebook Docker 安装spark环境

环境 Notebook docker环境 https://registry.hub.docker.com/r/jupyter/datascience-notebook/ 下载安装包 spark安装包 http://mirror.bit.edu.cn/apache/spark/spark-3.0.0/ ...

分类：其他好文时间：2020-07-04 18:29:02 阅读次数：83

Docker中提交任务到Spark集群

1. 背景描述和需求数据分析程序部署在Docker中，有一些分析计算需要使用Spark计算，需要把任务提交到Spark集群计算。接收程序部署在Docker中，主机不在Hadoop集群上。与Spark集群网络互通。需求如下 1、在Docker中可程序化向Spark集群提交任务 2、在Docker ...

分类：其他好文时间：2020-07-03 19:06:43 阅读次数：62

共7773条上一页 1 ... 23 24 25 26 27 ... 778 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)