搜索关键字：rdd，搜索到1327个结果！码迷,mamicode.com！

Spark技术内幕：究竟什么是RDD

RDD是Spark最基本，也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 是关于RDD的论文。如果觉得英文阅读太费时间，可以看这篇译文：http://shiyanjun.cn/archives/744.html 本文也是基于这篇论文和源码，分析RDD的实现。第一个问题，RDD是什么？Resilient Distributed Datasets（RDD，）弹性分布式数据集。RDD是只读的、分区记录的集合。RD...

分类：其他好文时间：2014-10-07 18:59:34 阅读次数：331

Spark技术内幕之任务调度：从SparkContext开始

SparkContext是开发Spark应用的入口，它负责和整个集群的交互，包括创建RDD，accumulators and broadcast variables。理解Spark的架构，需要从这个入口开始。...

分类：其他好文时间：2014-10-01 22:56:01 阅读次数：276

Spark1.1.0 Actions

Actions The following table lists some of the common actions supported by Spark. Refer to the RDD API doc (Scala, Java, Python) and pair RDD functions doc (Scala, Java) for details. Ac...

分类：其他好文时间：2014-09-21 03:39:19 阅读次数：279

Spark1.1.0 Transformations

Transformations The following table lists some of the common transformations supported by Spark. Refer to the RDD API doc (Scala, Java, Python) and pair RDD functions doc (Scala, Java) for deta...

分类：其他好文时间：2014-09-21 03:05:49 阅读次数：305

Spark1.1.0 Quick Start (link)

Quick Start Interactive Analysis with the Spark Shell BasicsMore on RDD OperationsCaching Standalone ApplicationsWhere to Go from Here This tutorial provides a quick introduction to using Sp...

分类：其他好文时间：2014-09-15 12:57:48 阅读次数：258

原理系列：Spark1.x 生态圈一览

Spark生态圈，也就是BDAS（伯克利数据分析栈），是伯克利APMLab实验室精心打造的，力图在算法（Algorithms）、机器（Machines）、人（People）之间通过大规模集成，来展现大数据应用的一个平台，其核心引擎就是Spark，其计算基础是弹性分布式数据集，也就是RDD。通...

分类：其他好文时间：2014-09-12 11:27:23 阅读次数：293

Spark分析之Dependency

在Spark中，每一个RDD是对于数据集在某一状态下的表现形式，比如说：map、filter、group by等都算一次操作，这个状态有可能是从前一状态转换而来的；因此换句话说一个RDD可能与之前的RDD(s)有依赖关系；RDD之间存在依赖关系；根据依赖关系的不同，可以将RDD分成两种不同的类型：宽...

分类：其他好文时间：2014-08-21 16:39:14 阅读次数：223

【系列】Matei Zaharia(马铁)博士论文-2 引言

由于单台机器的计算能力和I/O能力已经无法满足不断增长的数据处理需求，越来越多的组织需要将应用扩展到更大规模的集群上。但在集群环境中，可编程性方面将遇到以下几个挑战：并行编程问题；为了将应用并行化，需要并行编程模型的支撑。容错和慢节点问题；当集群规模相当大时，这个问题也是非常严重的。多用户共享集群要求能具备弹性计算的能力，此外还要考虑干扰问题。结果就是出现了很多编程模型，首先是MapReduce使数据批处理变得简单通用同时能处理容错。但很难处理其它类型的负载，于是就出现了各种各样专用的编程模型： ...

分类：其他好文时间：2014-08-06 19:28:12 阅读次数：285

【系列】Matei Zaharia博士论文-1 摘要

随着处理器提升速度下降和数据量的不断增长，很多公司和组织（既有互联网公司也有传统的企业还有一些研究机构）都要求他们的应用能够Scale out到更大的分布式系统上（比如整个数据中心）。这些应用又分为以下几种类型：...

分类：其他好文时间：2014-08-05 19:28:10 阅读次数：245

Spark分析之Job Scheduling Process

经过前面文章的SparkContext、DAGScheduler、TaskScheduler分析，再从总体上了解Spark Job的调度流程1、SparkContext将job的RDD DAG图提交给DAGScheduler；2、DAGScheduler将job分解成Stage DAG，将每个Sta...

分类：其他好文时间：2014-08-02 04:07:42 阅读次数：1266

共1327条上一页 1 ... 129 130 131 132 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)