搜索关键字：spark sort-based shuffle内幕彻底解密，搜索到7004个结果！码迷,mamicode.com！

Spark 两种方法计算分组取Top N

Spark 分组取Top N运算大数据处理中，对数据分组后，取TopN是非常常见的运算。下面我们以一个例子来展示spark如何进行分组取Top的运算。 1、RDD方法分组取TopN from pyspark import SparkContext sc = SparkContext() 准备数据 ...

分类：其他好文时间：2020-07-06 16:11:05 阅读次数：78

IDEA创建Spark开发环境

下面安装的六步和通过Maven安装Java项目的方式相同如果刚安装完IDEA，直接点击[Create New Project] 左侧选择Maven，然后先勾选上部的[Create from archetype],然后右侧选择[maven-archetype-quickstart] 填写GroupI ...

分类：其他好文时间：2020-07-05 19:02:22 阅读次数：90

Spark DAG 依赖关系 Stage

DAG ：整个计算链可以抽象为一个DAG(有向无环图) Spark 的 DAG 作用：记录了RDD之间的依赖关系，即RDD是通过何种变换生成的，如下图：RDD1是RDD2的父RDD，通过flatMap操作生成借助RDD之间的依赖关系，可以实现数据的容错，即子分区(子RDD)数据丢失后，可以 ...

分类：其他好文时间：2020-07-05 17:29:07 阅读次数：56

Spark RDD

RDD概述 RDD：弹性分布式数据集，初学时，可以把RDD看做是一种集合类型（和Array，List类比） RDD的特点： ①有容错性，即数据丢失是可以恢复的 ②有分区机制，可以并行的处理RDD数据创建RDD的2种方式： ①将一个普通的集合类型(Array或List) ②通过Spark读取外部存储 ...

分类：其他好文时间：2020-07-05 15:15:06 阅读次数：66

Notebook Docker 安装spark环境

环境 Notebook docker环境 https://registry.hub.docker.com/r/jupyter/datascience-notebook/ 下载安装包 spark安装包 http://mirror.bit.edu.cn/apache/spark/spark-3.0.0/ ...

分类：其他好文时间：2020-07-04 18:29:02 阅读次数：83

Docker中提交任务到Spark集群

1. 背景描述和需求数据分析程序部署在Docker中，有一些分析计算需要使用Spark计算，需要把任务提交到Spark集群计算。接收程序部署在Docker中，主机不在Hadoop集群上。与Spark集群网络互通。需求如下 1、在Docker中可程序化向Spark集群提交任务 2、在Docker ...

分类：其他好文时间：2020-07-03 19:06:43 阅读次数：62

基于pySpark得地震数据处理与分析

项目来源厦门大学林子雨老师得Spark学习项目中，里面为部分项目代码和实验截图读取文件 from pyspark import SparkConf, SparkContext from pyspark.sql import SparkSession from pyspark.ml.feature ...

分类：其他好文时间：2020-07-03 19:04:21 阅读次数：89

【赵强老师】什么是Spark SQL？

分类：数据库时间：2020-07-03 10:46:43 阅读次数：73

Spark落地到hive表中的两种方式及其区别

方式一： SavaAsTable 用法： df.write.mode(SaveMode.Overwrite).insertInto(table) 方式二： InsertInto 用法： df.write.mode(SaveMode.Overwrite).saveAsTable(table) 两种方式 ...

分类：其他好文时间：2020-07-03 01:10:09 阅读次数：152

Spark 源码解读（四）SparkContext的初始化之创建任务调度器TaskScheduler

Spark 源码解读（四）SparkContext的初始化之创建任务调度器TaskScheduler TaskScheduler负责任务任务的提交，并请求集群管理器对任务的调度。创建TaskScheduler的代码如下： val (sched, ts) = SparkContext.createTa ...

分类：其他好文时间：2020-07-03 00:59:56 阅读次数：63

共7004条上一页 1 ... 21 22 23 24 25 ... 701 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)