码迷,mamicode.com
首页 >  
搜索关键字:rdd    ( 1327个结果
Spark JdbcRDD 简单使用
package org.apache.spark.sql.sourcesimport org.apache.spark.SparkContextimport java.sql.{ResultSet, DriverManager}import org.apache.spark.rdd.JdbcRDD/...
分类:数据库   时间:2015-01-08 19:50:57    阅读次数:637
RDD与DSM的区别
RDD(Resilient Distributed DataSet)弹性分布式数据集,是Spark的核心数据结构。 DSM(Distributed Shared Memory)分布式共享内存,它是一种通用的内存数据抽象。在DSM中,应用可以向全局地址空间的任意位置进行读写操作。 RDD与DSM主要区别在于,不仅可以通过批量转换创建(即“写”)RDD,还可以对任意内存位置对写。RDD限制应用执行...
分类:其他好文   时间:2015-01-05 13:09:07    阅读次数:188
【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节②
三,深入RDD RDD本身是一个抽象类,具有很多具体的实现子类: RDD都会基于Partition进行计算: ? 默认的Partitioner如下所示: 其中HashPartitioner的文档说明如下: 另外一种常用的Partitioner是RangePartitio...
分类:其他好文   时间:2014-12-29 23:10:11    阅读次数:540
Spark简介
简介:spark是一个内存计算框架,解决了mapreduce在迭代与交互方面的不足迭代:多轮算法计算形式,pagerank,逻辑回归等交互:实时数据,数据仓库查询等spark重要概念:RDD: 弹性分布式数据集,弹性(数据多节点分片)分布式(集群节点)数据集(默认加载至内存)操作:转换(transformation)rdd..
分类:其他好文   时间:2014-12-26 14:47:34    阅读次数:186
【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第2节:Spark架构设计(2)
三,Spark的RDD在Spark中一切都是以RDD为基础和核心的:每个RDD的API如下所示:Spark官方文档中给出了的众多的RDD:RDD中的操作分为transformations和actions两种:下面举一个例子来说明RDD的使用:另外有两个特殊的RDD:他们都是controllingop...
分类:其他好文   时间:2014-12-26 14:25:08    阅读次数:116
【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节:Spark架构设计(2)
三,深入RDD RDD本身是一个抽象类,具有很多具体的实现子类:RDD都会基于Partition进行计算:默认的Partitioner如下所示:其中HashPartitioner的文档说明如下:另外一种常用的Partitioner是RangePartitioner:RDD在持久化的需要考虑内存策略:...
分类:其他好文   时间:2014-12-26 14:21:43    阅读次数:183
【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节:Spark架构设计(1)
一、以RDD为基石的Spark编程模型 在Spark中一切都是基于RDD的:什么是RDD呢?官方给出的解释是:也就是说每个RDD都至少有以下三个函数实现:Spark自带了非常多的RDD:RDD主要分为两种:其中的transformations是lazyexecution的,需要具体的action去触...
分类:其他好文   时间:2014-12-26 14:20:16    阅读次数:177
一天征服Spark!
Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“One Stack to rule them all”思想的引领下,Spark成功的使用Spark SQL、Spark Streaming、MLLib、Graph...
分类:其他好文   时间:2014-12-24 23:59:13    阅读次数:358
征服Spark as a Service
Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“One Stack to rule them all”思想的引领下,Spark成功的使用Spark SQL、Spark Streaming、MLLib、Graph...
分类:其他好文   时间:2014-12-24 23:55:35    阅读次数:195
spark 存储机制详解
我们知道spark可以将运行过的RDD存储到内存上, 并在需要的时候重复利用. 那么spark是怎么完成这些工作的, 本文将通过分析源码来解释RDD的重复利用过程. 在上一篇文章解释了spark的执行机制, DAGScheduler负责分解action, 在DAGScheduler.getMi...
分类:其他好文   时间:2014-12-23 22:30:39    阅读次数:915
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!