码迷,mamicode.com
首页 >  
搜索关键字:rdd    ( 1327个结果
一天征服Spark!
Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“OneStacktorulethemall”思想的引领下,Spark成功的使用SparkSQL、SparkStreaming、MLLib、GraphX近乎完美的解...
分类:其他好文   时间:2014-12-23 06:41:54    阅读次数:192
征服Spark as a Service
Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“OneStacktorulethemall”思想的引领下,Spark成功的使用SparkSQL、SparkStreaming、MLLib、GraphX近乎完美的解...
分类:其他好文   时间:2014-12-23 06:39:55    阅读次数:217
Spark RDD
原文:http://www.tuicool.com/articles/r22YBrRDDRDD初始参数:上下文和一组依赖abstract class RDD[T: ClassTag]( @transient private var sc: SparkContext, @transient...
分类:其他好文   时间:2014-12-17 18:01:48    阅读次数:249
spark1.1.0源码阅读-dagscheduler and stage
1. rdd action ->sparkContext.runJob->dagscheduler.runJob 1 def runJob[T, U: ClassTag]( 2 rdd: RDD[T], 3 func: (TaskContext, Iterator[T])...
分类:其他好文   时间:2014-12-11 22:16:37    阅读次数:442
RDD原理与详解
RDD详解RDD(Resilient Distributed Datasets弹性分布式数据集),是spark中最重要的概念,可以简单的把RDD理解成一个提供了许多操作接口的数据集合,和一般数据集不同的是,其实际数据分布存储于一批机器中(内存或磁盘中)。当然,RDD肯定不会这么简单,它的功能还包括容...
分类:其他好文   时间:2014-11-29 15:54:31    阅读次数:252
Spark RDD API详解(一) Map和Reduce
本文由cmd markdown编辑,原始链接:https://www.zybuluo.com/jewes/note/35032RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组 的区别是,RDD中的...
分类:Windows程序   时间:2014-11-25 22:57:22    阅读次数:328
【Spark学习】Apache Spark调优
Spark调优本文系根据官方文档翻译而来,转载请注明本文链接 http://www.oschina.net/translate/spark-tuning?print数据序列化内存优化确定内存用量调整数据结构序列化RDD存储垃圾收集调整其他考虑因素并行化水平Reduce任务的内存用量Broadcast...
分类:Web程序   时间:2014-11-24 09:56:40    阅读次数:335
理解Spark的RDD
RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。 RDD是只读的,不可变的数据集。RDD也是容错的,假如其中一个RDD坏掉,RDD中有记录之前的依赖关系,依赖关系中记录算...
分类:其他好文   时间:2014-11-23 21:44:22    阅读次数:292
Spark和RDD模型研究
1背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语,使用户不用操心任务分发和错误容忍,非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持,使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分布式数据集)模型的产生动机主要来源于两种主流的应用场景:Ø  迭代式算法:迭代式机器学习、图算法,包...
分类:其他好文   时间:2014-11-22 16:08:17    阅读次数:392
Spark RDD与共享变量简介
hadoop有两个东东:HDFS(存储)和MapReduce(计算)。MapReduce计算比较慢,于是Spark(速度是MR的10~100倍)出现了。Spark有两个核心的概念:弹性分布式数据集RDD与共享变量。下面进行一下简单的介绍。 弹性分布式数据集(RDD)获得方式:1 并行化驱动程序内的集合; 2 从外部数据集加载。 1 并行化驱动程序内的集合code demo val d...
分类:其他好文   时间:2014-11-20 12:05:17    阅读次数:296
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!