搜索关键字：spark sort-based shuffle内幕彻底解密，搜索到7004个结果！码迷,mamicode.com！

入门大数据---SparkSQL联结操作

一、数据准备本文主要介绍 Spark SQL 的多表连接，需要预先准备测试数据。分别创建员工和部门的 Datafame，并注册为临时视图，代码如下： val spark = SparkSession.builder().appName("aggregations").master("local[ ...

分类：数据库时间：2020-06-26 18:28:15 阅读次数：72

入门大数据---SparkSQL常用聚合函数

一、简单聚合 1.1 数据准备 // 需要导入 spark sql 内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSession.builder().appName("aggregations").master("lo ...

分类：数据库时间：2020-06-26 18:03:35 阅读次数：58

入门大数据---Spark累加器与广播变量

一、简介在 Spark 中，提供了两种类型的共享变量：累加器 (accumulator) 与广播变量 (broadcast variable)：累加器：用来对信息进行聚合，主要用于累计计数等场景；广播变量：主要用于在节点间高效分发大对象。二、累加器这里先看一个具体的场景，对于正常的累计求和 ...

分类：其他好文时间：2020-06-26 10:59:41 阅读次数：50

Kafka、Flume、Kinesis更多的流方式支持，包括Twitter、ZeroMQ等

特性如下：可线性伸缩至超过数百个节点；实现亚秒级延迟处理；可与Spark批处理和交互式处理无缝集成；提供简单的API实现复杂算法；更多的流方式支持，包括Kafka、Flume、Kinesis、Twitter、ZeroMQ等。原理 Spark在接收到实时输入数据流后，将数据划分成批次（di ...

分类：Web程序时间：2020-06-26 01:31:54 阅读次数：136

入门大数据---Spark开发环境搭建

一、安装Spark 1.1 下载并解压官方下载地址：http://spark.apache.org/downloads.html ，选择 Spark 版本和对应的 Hadoop 版本后再下载：解压安装包： # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 ...

分类：其他好文时间：2020-06-25 21:47:14 阅读次数：74

Hive、Spark SQL、Impala比较

Hive、Spark SQL和Impala三种分布式SQL查询引擎都是SQL-on-Hadoop解决方案，但又各有特点。前面已经讨论了Hive和Impala，本节先介绍一下SparkSQL，然后从功能、架构、使用场景几个角度比较这三款产品的异同，最后附上分别由cloudera公司和SAS公司出示的关 ...

分类：数据库时间：2020-06-25 21:29:31 阅读次数：581

入门大数据---Spark_RDD

一、RDD简介 RDD 全称为 Resilient Distributed Datasets，是 Spark 最基本的数据抽象，它是只读的、分区记录的集合，支持并行操作，可以由外部数据集或其他 RDD 转换而来，它具有以下特性：一个 RDD 由一个或者多个分区（Partitions）组成。对于 R ...

分类：其他好文时间：2020-06-25 21:27:05 阅读次数：66

Spark的Join连接

Broadcast Join 适合情况，小表和大表，小表非常小，适合传播到各个节点。当大表小表连接时，为了避免Shuffle，我们可以将小表广播到各个节点内存，供大表连接。一定程度上牺牲了空间，避免了Shuffle。这种Join在Spark中称作Broadcast Join。（需要注意的点是广播的 ...

分类：其他好文时间：2020-06-24 16:28:44 阅读次数：53

kafka -> structuredStreaming读取kafka日志 ->自定义输出到mysql

package test import org.apache.spark.sql.{DataFrame, ForeachWriter, Row, SparkSession} import org.apache.spark.sql.streaming.{ProcessingTime, Trigger} ...

分类：数据库时间：2020-06-24 16:23:50 阅读次数：132

奈学教育《大数据架构师》课程大纲

深度剖析了各个基础技术的源码(ZooKeeper、Hive、Spark、Flink、Hadoop等)，对这些基础技术知识动态的排列组合，形成大数据全局架构观，并深入讲述大数据全局架构设计的方方面面，打造真正满足企业万亿级海量数据规模的数据中台，真正赋能前台业务。同时，在企业万亿级真实项目落地环节，采用高性能、高可用、高扩展的架构设计原则，技术上更是融合了企业级主流的离线架构和实时架构，带领大家构建

分类：其他好文时间：2020-06-23 18:39:30 阅读次数：58

共7004条上一页 1 ... 24 25 26 27 28 ... 701 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)