码迷,mamicode.com
首页 > Web开发 > 详细

Apache Spark RDD之什么是RDD

时间:2016-07-31 18:59:42      阅读:186      评论:0      收藏:0      [点我收藏+]

标签:

     

  什么是RDD?

       官方对RDD的解释是:弹性分布式数据集,全称是Resilient Distributed Datasets。RDD是只读的、分区记录的集合。RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。这些确定性操作称为转换,如map、filter、groupBy、join。

      RDD不需物化,RDD含有如何从其他RDD衍生(即计算)出本RDD的相关信息(即Lineage),因此在RDD部分分区数据丢失的时候可以从物理存储的数据计算出相应的RDD分区。

      这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。

      所谓弹性,是指在内存不够时可以与磁盘进行交换。

     这设计了RDD的另一个特性:内存计算,就是将数据保存到内存中。同时为了解决内存容量限制问题,Spark为我们提供了最大的自由度,所有数据均可由我们来进行cache的设置,包括是否cache和如何cache。

Apache Spark RDD之什么是RDD

标签:

原文地址:http://www.cnblogs.com/zlslch/p/5723446.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!