搜索关键字：rdd，搜索到1327个结果！码迷,mamicode.com！

Spark JdbcRDD 简单使用

package org.apache.spark.sql.sourcesimport org.apache.spark.SparkContextimport java.sql.{ResultSet, DriverManager}import org.apache.spark.rdd.JdbcRDD/...

分类：数据库时间：2015-01-08 19:50:57 阅读次数：637

RDD与DSM的区别

RDD（Resilient Distributed DataSet)弹性分布式数据集，是Spark的核心数据结构。 DSM（Distributed Shared Memory）分布式共享内存，它是一种通用的内存数据抽象。在DSM中，应用可以向全局地址空间的任意位置进行读写操作。 RDD与DSM主要区别在于，不仅可以通过批量转换创建（即“写”）RDD，还可以对任意内存位置对写。RDD限制应用执行...

分类：其他好文时间：2015-01-05 13:09:07 阅读次数：188

【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节②

三，深入RDD RDD本身是一个抽象类，具有很多具体的实现子类： RDD都会基于Partition进行计算： ? 默认的Partitioner如下所示：其中HashPartitioner的文档说明如下：另外一种常用的Partitioner是RangePartitio...

分类：其他好文时间：2014-12-29 23:10:11 阅读次数：540

Spark简介

简介:spark是一个内存计算框架,解决了mapreduce在迭代与交互方面的不足迭代:多轮算法计算形式,pagerank,逻辑回归等交互:实时数据,数据仓库查询等spark重要概念:RDD: 弹性分布式数据集,弹性(数据多节点分片)分布式(集群节点)数据集(默认加载至内存)操作:转换(transformation)rdd..

分类：其他好文时间：2014-12-26 14:47:34 阅读次数：186

【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第2节：Spark架构设计(2)

三，Spark的RDD在Spark中一切都是以RDD为基础和核心的：每个RDD的API如下所示：Spark官方文档中给出了的众多的RDD：RDD中的操作分为transformations和actions两种：下面举一个例子来说明RDD的使用：另外有两个特殊的RDD:他们都是controllingop...

分类：其他好文时间：2014-12-26 14:25:08 阅读次数：116

【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节：Spark架构设计(2)

三，深入RDD RDD本身是一个抽象类，具有很多具体的实现子类：RDD都会基于Partition进行计算：默认的Partitioner如下所示：其中HashPartitioner的文档说明如下：另外一种常用的Partitioner是RangePartitioner：RDD在持久化的需要考虑内存策略：...

分类：其他好文时间：2014-12-26 14:21:43 阅读次数：183

【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节：Spark架构设计(1)

一、以RDD为基石的Spark编程模型在Spark中一切都是基于RDD的：什么是RDD呢？官方给出的解释是：也就是说每个RDD都至少有以下三个函数实现:Spark自带了非常多的RDD:RDD主要分为两种：其中的transformations是lazyexecution的，需要具体的action去触...

分类：其他好文时间：2014-12-26 14:20:16 阅读次数：177

一天征服Spark！

Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台，基于RDD，Spark成功的构建起了一体化、多元化的大数据处理体系，在“One Stack to rule them all”思想的引领下，Spark成功的使用Spark SQL、Spark Streaming、MLLib、Graph...

分类：其他好文时间：2014-12-24 23:59:13 阅读次数：358

征服Spark as a Service

Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台，基于RDD，Spark成功的构建起了一体化、多元化的大数据处理体系，在“One Stack to rule them all”思想的引领下，Spark成功的使用Spark SQL、Spark Streaming、MLLib、Graph...

分类：其他好文时间：2014-12-24 23:55:35 阅读次数：195

spark 存储机制详解

我们知道spark可以将运行过的RDD存储到内存上, 并在需要的时候重复利用. 那么spark是怎么完成这些工作的, 本文将通过分析源码来解释RDD的重复利用过程. 在上一篇文章解释了spark的执行机制, DAGScheduler负责分解action, 在DAGScheduler.getMi...

分类：其他好文时间：2014-12-23 22:30:39 阅读次数：915