搜索关键字：rdd，搜索到1327个结果！码迷,mamicode.com！

一天征服Spark！

Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台，基于RDD，Spark成功的构建起了一体化、多元化的大数据处理体系，在“OneStacktorulethemall”思想的引领下，Spark成功的使用SparkSQL、SparkStreaming、MLLib、GraphX近乎完美的解...

分类：其他好文时间：2014-12-23 06:41:54 阅读次数：192

征服Spark as a Service

Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台，基于RDD，Spark成功的构建起了一体化、多元化的大数据处理体系，在“OneStacktorulethemall”思想的引领下，Spark成功的使用SparkSQL、SparkStreaming、MLLib、GraphX近乎完美的解...

分类：其他好文时间：2014-12-23 06:39:55 阅读次数：217

Spark RDD

原文：http://www.tuicool.com/articles/r22YBrRDDRDD初始参数：上下文和一组依赖abstract class RDD[T: ClassTag]( @transient private var sc: SparkContext, @transient...

分类：其他好文时间：2014-12-17 18:01:48 阅读次数：249

spark1.1.0源码阅读-dagscheduler and stage

1. rdd action ->sparkContext.runJob->dagscheduler.runJob 1 def runJob[T, U: ClassTag]( 2 rdd: RDD[T], 3 func: (TaskContext, Iterator[T])...

分类：其他好文时间：2014-12-11 22:16:37 阅读次数：442

RDD原理与详解

RDD详解RDD（Resilient Distributed Datasets弹性分布式数据集），是spark中最重要的概念，可以简单的把RDD理解成一个提供了许多操作接口的数据集合，和一般数据集不同的是，其实际数据分布存储于一批机器中（内存或磁盘中）。当然，RDD肯定不会这么简单，它的功能还包括容...

分类：其他好文时间：2014-11-29 15:54:31 阅读次数：252

Spark RDD API详解(一) Map和Reduce

本文由cmd markdown编辑，原始链接：https://www.zybuluo.com/jewes/note/35032RDD是什么？RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的...

分类：Windows程序时间：2014-11-25 22:57:22 阅读次数：328

【Spark学习】Apache Spark调优

Spark调优本文系根据官方文档翻译而来，转载请注明本文链接 http://www.oschina.net/translate/spark-tuning?print数据序列化内存优化确定内存用量调整数据结构序列化RDD存储垃圾收集调整其他考虑因素并行化水平Reduce任务的内存用量Broadcast...

分类：Web程序时间：2014-11-24 09:56:40 阅读次数：335

理解Spark的RDD

RDD（Resilient Distributed Datasets）弹性分布式数据集，是在集群应用中分享数据的一种高效，通用，容错的抽象，是Spark提供的最重要的抽象的概念，它是一种有容错机制的特殊集合，可以分布在集群的节点上，以函数式编操作集合的方式，进行各种并行操作。 RDD是只读的，不可变的数据集。RDD也是容错的，假如其中一个RDD坏掉，RDD中有记录之前的依赖关系，依赖关系中记录算...

分类：其他好文时间：2014-11-23 21:44:22 阅读次数：292

Spark和RDD模型研究

1背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语，使用户不用操心任务分发和错误容忍，非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持，使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分布式数据集)模型的产生动机主要来源于两种主流的应用场景：Ø 迭代式算法：迭代式机器学习、图算法，包...

分类：其他好文时间：2014-11-22 16:08:17 阅读次数：392

Spark RDD与共享变量简介

hadoop有两个东东：HDFS（存储）和MapReduce（计算）。MapReduce计算比较慢，于是Spark（速度是MR的10~100倍）出现了。Spark有两个核心的概念：弹性分布式数据集RDD与共享变量。下面进行一下简单的介绍。弹性分布式数据集（RDD）获得方式：1 并行化驱动程序内的集合; 2 从外部数据集加载。 1 并行化驱动程序内的集合code demo val d...

分类：其他好文时间：2014-11-20 12:05:17 阅读次数：296