标签:算子 集群 数据 其它 模型 列表 dataset 共享 共享内存模型
spark建立在抽象的RDD上,把不同处理的数据的需求转化为RDD,然后对RDD进行一系列的算子运算,从而得到结果。1:RDD的定义及五大特性剖析
RDD是分布式内存的一个抽象概念,是一种高度受限的共享内存模型,即RDD时只读的记录分区的集合,能跨集群所有节点并行计算,是一种基于工作集的抽象模型。
(1)分区列表
(2)每一个分区都有一个计算函数
(3)依赖于其它RDD的列表
(4)key-value数据类型的RDD分区器
(5)每一个分区都有一个优先位置列表
2:DataSet的定义及内部机制剖析
标签:算子 集群 数据 其它 模型 列表 dataset 共享 共享内存模型
原文地址:https://blog.51cto.com/wangyichao/2436090