标签:http color io 使用 ar strong for 数据 sp
注:本文章是翻译自:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing
我们提出了弹性分布式数据集(Resilient Distributed Datasets,简称RDDs)的概念,这是一个分布式内存的抽象,允许编程在大规模集群
上编写出以内存计算为基础的程序,并且该模型支持容错。RDD概念的提出主要启发于这样一种现象:有两种类型的应用程序,使用现有的
计算框架并不能很好的处理。这两种应用程序就是:迭代式计算和交互式数据挖掘。在这两种计算场景下,把数据保存到内存中都能(成数量
级的)提升性能。为了高效的实现容错性RDD提供了一种形式上受限的共享内存(shared memory)。该共享内存是基于粗粒度的转换而不
是细粒度的针对共享内存的更新。但是,我们分析表明RDD可以表达出大多数的计算模型,包括最近发布的专门针对迭代式计算的计算模型(
比如Pregel),以及该类(迭代式计算框架)框架不支持的新的计算模型。我们已经在一个成为Spark的系统中实现了RDD,我们还通过一系
列的应用程序和基准测试评估了Spark。
。。
标签:http color io 使用 ar strong for 数据 sp
原文地址:http://www.cnblogs.com/sysman/p/3973303.html