一 简介 spark核心是RDD,官方文档地址:https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds官方描述如下:重点是可容错,可并行处理 Spark r ...
分类:
其他好文 时间:
2018-12-20 21:35:21
阅读次数:
159
combineByKey(crateCombiner,mergeValue,mergeCombiners,partitioner) 最常用的基于Key的聚合函数,返回的类型可以和输入的类型不一样 许多基于key的聚合函数都用到了它,例如说groupByKey() 参数解释 遍历partition中的 ...
分类:
其他好文 时间:
2018-11-25 20:31:54
阅读次数:
221
创建KeyValue对RDDs 使用函数map,返回keyvalue对 例如,包含数行数据的RDD,那每行的第一个单词作为keys。 sparl.txt中的内容如下: hello ! hello world hello spark 常见的操作: ...
分类:
其他好文 时间:
2018-11-25 20:00:57
阅读次数:
163
逐元素Transformation map() map()接收函数,把函数应用到RDD的每个元素,返回新的RDD 举例: filter() filter接收函数,返回只包含满足filter()函数的元素的新RDD flatMap() 对每个输入元素,输出多个输出元素。 flat是压扁的意思,将RDD ...
分类:
其他好文 时间:
2018-11-25 17:48:11
阅读次数:
350
一、弹性分布式数据集 1.弹性分布式数据集(RDD)是spark数据结构的基础。它是一个不可变的分布式对象的集合,RDD中的每个数据集都被划分为一个个逻辑分区,每个分区可以在集群上的不同节点上进行计算。RDDs可以包含任何类型的Python,Java或者Scala对象,包括用户自定义的类。 2.正常 ...
分类:
其他好文 时间:
2018-11-09 16:23:04
阅读次数:
209
Spark 编程指南 概述 Spark 依赖 初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs) 并行集合 外部 Datasets(数据集) RDD 操作 基础 传递 Functions(函数)给 Spark 理解闭包 示例 Local(本地)vs. cluster(集群)模式 打 ...
分类:
其他好文 时间:
2018-08-19 13:55:40
阅读次数:
209
本篇主要详解spark具体编程实践中的rdd常用算子。 Rdds,Accumulators,Broadcasts RDD RDDs support 两种类型的操作: transformations(转换), 它会在一个已存在的 dataset 上创建一个新的 dataset, 和 actions(动 ...
分类:
其他好文 时间:
2018-06-30 12:44:06
阅读次数:
203
1 Tutorial Spark本身是由scala语言编写,为了支持py对spark的支持呢就出现了pyspark。它依然可以通过导入Py4j进行RDDS等操作。 2 sparkContext (1)sparkContext是spark运用的入口点,当我们运行spark的时候,驱动启动同时上下文也开 ...
分类:
其他好文 时间:
2018-04-03 10:59:10
阅读次数:
2454
Actions Available on Pair RDDs (键值对RDD可用的action) 和transformation(转换)一样,键值对RDD也可以使用基础RDD上的action(开工),并且键值对RDD有一些利用键值对数据特性的的action,如下表: 表4 3 ...
分类:
其他好文 时间:
2018-03-03 18:12:09
阅读次数:
216
本章介绍了Spark用于数据处理的核心抽象概念,具有弹性的分布式数据集(RDD)。一个RDD仅仅是一个分布式的元素集合。在Spark中,所有工作都表示为创建新的RDDs、转换现有的RDDs,或者调用RDDs上的操作来计算结果。在底层,Spark自动将数据中包含的数据分发到你 ...
分类:
其他好文 时间:
2018-02-22 21:35:41
阅读次数:
208