搜索关键字：rdds，搜索到34个结果！码迷,mamicode.com！

【原创】大数据基础之Spark（4）RDD原理及代码解析

一简介 spark核心是RDD，官方文档地址：https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds官方描述如下：重点是可容错，可并行处理 Spark r ...

分类：其他好文时间：2018-12-20 21:35:21 阅读次数：159

RDDs之combineByKey()

combineByKey(crateCombiner,mergeValue,mergeCombiners,partitioner) 最常用的基于Key的聚合函数，返回的类型可以和输入的类型不一样许多基于key的聚合函数都用到了它，例如说groupByKey() 参数解释遍历partition中的 ...

分类：其他好文时间：2018-11-25 20:31:54 阅读次数：221

KeyValue对RDDs

创建KeyValue对RDDs 使用函数map，返回keyvalue对例如，包含数行数据的RDD，那每行的第一个单词作为keys。 sparl.txt中的内容如下： hello ! hello world hello spark 常见的操作： ...

分类：其他好文时间：2018-11-25 20:00:57 阅读次数：163

RDDs基本操作之Transformations

逐元素Transformation map() map()接收函数，把函数应用到RDD的每个元素，返回新的RDD 举例： filter() filter接收函数，返回只包含满足filter()函数的元素的新RDD flatMap() 对每个输入元素，输出多个输出元素。 flat是压扁的意思，将RDD ...

分类：其他好文时间：2018-11-25 17:48:11 阅读次数：350

spark浅谈(1):RDD

一、弹性分布式数据集 1.弹性分布式数据集(RDD)是spark数据结构的基础。它是一个不可变的分布式对象的集合，RDD中的每个数据集都被划分为一个个逻辑分区，每个分区可以在集群上的不同节点上进行计算。RDDs可以包含任何类型的Python，Java或者Scala对象，包括用户自定义的类。 2.正常 ...

分类：其他好文时间：2018-11-09 16:23:04 阅读次数：209

转-Spark编程指南

Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs) 并行集合外部 Datasets（数据集） RDD 操作基础传递 Functions（函数）给 Spark 理解闭包示例 Local（本地）vs. cluster（集群）模式打 ...

分类：其他好文时间：2018-08-19 13:55:40 阅读次数：209

spark知识体系03-Rdds,Accumulators,Broadcasts

本篇主要详解spark具体编程实践中的rdd常用算子。 Rdds,Accumulators,Broadcasts RDD RDDs support 两种类型的操作: transformations（转换）, 它会在一个已存在的 dataset 上创建一个新的 dataset, 和 actions（动 ...

分类：其他好文时间：2018-06-30 12:44:06 阅读次数：203

3 pyspark学习---sparkContext概述

1 Tutorial Spark本身是由scala语言编写，为了支持py对spark的支持呢就出现了pyspark。它依然可以通过导入Py4j进行RDDS等操作。 2 sparkContext (1)sparkContext是spark运用的入口点，当我们运行spark的时候，驱动启动同时上下文也开 ...

分类：其他好文时间：2018-04-03 10:59:10 阅读次数：2454

Learning Spark中文版--第四章--使用键值对（2）

Actions Available on Pair RDDs （键值对RDD可用的action）和transformation(转换)一样，键值对RDD也可以使用基础RDD上的action（开工），并且键值对RDD有一些利用键值对数据特性的的action,如下表: 表4 3 ...

分类：其他好文时间：2018-03-03 18:12:09 阅读次数：216

Learning Spark中文版--第三章--RDD编程（1）

本章介绍了Spark用于数据处理的核心抽象概念，具有弹性的分布式数据集(RDD)。一个RDD仅仅是一个分布式的元素集合。在Spark中，所有工作都表示为创建新的RDDs、转换现有的RDDs，或者调用RDDs上的操作来计算结果。在底层，Spark自动将数据中包含的数据分发到你 ...

分类：其他好文时间：2018-02-22 21:35:41 阅读次数：208

共34条 1 2 3 4 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)