Spark RDD(Resilient Distributed Dataset)

时间：2017-12-14 04:04:55 阅读：147 评论：0 收藏：0 [点我收藏+]

基于数据集的处理：从物理存储上加载数据，然后操作数据，然后写入物理存储设备。比如Hadoop的MapReduce。
缺点：1.不适合大量的迭代 2. 交互式查询 3. 不能复用曾经的结果或中间计算结果

基于工作集的处理：如Spark的RDD。
RDD具有如下的弹性：

           1. 自动的进行内存和磁盘数据存储的切换
           2. 基于Lineage的高效容错
           3. Task如果失败会自动进行特定次数的重试
           4. Stage如果失败会自动进行特定次数的重试，而且只会计算失败的分片
           5. Checkpoint和persist （用于计算结果复用）
           6. 数据分片的高度弹性

RDD的写操作是粗粒度的，读操作既可以是粗粒度的也可以是细粒度的.

RDD是分布式函数式编程的抽象。

RDD通过记录数据更新的方式为何高效？

1. RDD是不可变的 + lazy

创建RDD的几种方式：1. 程序中的集合(主要用于测试) 2. 使用本地文件系统(主要用于测试较大量的数据) 3. 使用HDFS 4. 基于DB。5. 基于S3 6. 基于数据流

RDD 依赖分为宽依赖和窄依赖

技术分享图片