1.UDAF定义 spark中的UDF(UserDefinedFunction)大家都不会陌生, UDF其实就是将一个普通的函数, 包装为可以按 行 操作DataFrame中指定Columns的函数. 例如, 对某一列的所有元素进行+1操作, 它对应mapreduce操作中的map操作. 这种操作有 ...
分类:
其他好文 时间:
2021-01-04 11:31:11
阅读次数:
0
scala> val df = sc.parallelize(Seq( | (0,"cat26",30.9), | (1,"cat67",28.5), | (2,"cat56",39.6), | (3,"cat8",35.6))).toDF("Hour", "Category", "Value") ...
分类:
其他好文 时间:
2021-01-02 11:32:57
阅读次数:
0
scala> val df = sc.parallelize(Seq( | (0,"cat26",30.9), | (1,"cat67",28.5), | (2,"cat56",39.6), | (3,"cat8",35.6))).toDF("Hour", "Category", "Value") ...
分类:
其他好文 时间:
2021-01-02 11:32:37
阅读次数:
0
由于之前已经搭建好了,今天是看视频回顾下,然后做下记录。 之前已经搭建好了Yarn集群,现在在Yarn集群上搭建spark。 1、安装spark 下载源码包:wget http://mirror.bit.edu.cn/apache/spark/spark-1.3.0/spark-1.3.0.tgz ...
分类:
其他好文 时间:
2021-01-01 12:18:40
阅读次数:
0
问题背景: (无关操作已省略) Spark ETL执行以下SQL: CREATE TEMPORARY VIEW A select user_id, ...; CREATE TEMPORARY VIEW B select user_id, ... from A ...; INSERT OVERWRIT ...
分类:
数据库 时间:
2020-12-29 11:28:30
阅读次数:
0
建议在用Scala编写相关功能实现时,边学习、边应用、边摸索以加深对Scala的理解和应用 ...
分类:
其他好文 时间:
2020-12-21 11:32:22
阅读次数:
0
Scala是以JVM为运行环境的面向对象的函数式编程语言,它可以直接访问Java类库并且与Java框架进行交互操作 ...
分类:
其他好文 时间:
2020-12-19 13:14:39
阅读次数:
1
本节课主要介绍如何在 Serverless Kubernetes 集群中低成本运行 Spark 数据计算。首先简单介绍下阿里云 Serverless Kubernetes 和 弹性容器实例 ECI 这两款产品;然后介绍 Spark on Kubernetes;最后进行实际演示。
分类:
其他好文 时间:
2020-12-17 12:22:18
阅读次数:
2
1、基本架构 (1)、应用程序Spark 应用程序由一个驱动器进程和一组执行器进程组成。驱动进程运行 main()函数,位于集群中的一个节点上,它负责三件事:维护 Spark 应用程序的相关信息;回应用户的程序或输入;分析任务并分发给若干执行器进行处理。驱动器是必须的,它是 Spark 应用程序的核 ...
分类:
其他好文 时间:
2020-12-17 12:09:25
阅读次数:
2
1. 概述 在2.x中,spark有两个用来与kafka整合的代码,版本代号为0.8和0.10,由于在0.8,kafka有两套消费者api,根据高级api得到了Receiver-based Approach,根据低级api得到了Direct Approach,而在0.10由于kafka只有一套消费者 ...
分类:
其他好文 时间:
2020-12-16 11:50:30
阅读次数:
4