spark的灵魂：RDD和DataSet

时间：2019-09-06 14:32:16 阅读：103 评论：0 收藏：0 [点我收藏+]

spark建立在抽象的RDD上，把不同处理的数据的需求转化为RDD，然后对RDD进行一系列的算子运算，从而得到结果。
RDD是一个容错的，并行的数据结构，可以将数据存储到磁盘和内存中，并能控制数据分区，并提供了丰富的API来操作数据。

1：RDD的定义及五大特性剖析
RDD是分布式内存的一个抽象概念，是一种高度受限的共享内存模型，即RDD时只读的记录分区的集合，能跨集群所有节点并行计算，是一种基于工作集的抽象模型。
（1）分区列表
（2）每一个分区都有一个计算函数
（3）依赖于其它RDD的列表
（4）key-value数据类型的RDD分区器
（5）每一个分区都有一个优先位置列表
2：DataSet的定义及内部机制剖析