码迷,mamicode.com
首页 > 其他好文 > 详细

spark的灵魂:RDD和DataSet

时间:2019-09-06 14:32:16      阅读:103      评论:0      收藏:0      [点我收藏+]

标签:算子   集群   数据   其它   模型   列表   dataset   共享   共享内存模型   

spark建立在抽象的RDD上,把不同处理的数据的需求转化为RDD,然后对RDD进行一系列的算子运算,从而得到结果。
RDD是一个容错的,并行的数据结构,可以将数据存储到磁盘和内存中,并能控制数据分区,并提供了丰富的API来操作数据。

1:RDD的定义及五大特性剖析
RDD是分布式内存的一个抽象概念,是一种高度受限的共享内存模型,即RDD时只读的记录分区的集合,能跨集群所有节点并行计算,是一种基于工作集的抽象模型。
(1)分区列表
(2)每一个分区都有一个计算函数
(3)依赖于其它RDD的列表
(4)key-value数据类型的RDD分区器
(5)每一个分区都有一个优先位置列表
2:DataSet的定义及内部机制剖析

spark的灵魂:RDD和DataSet

标签:算子   集群   数据   其它   模型   列表   dataset   共享   共享内存模型   

原文地址:https://blog.51cto.com/wangyichao/2436090

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!