码迷,mamicode.com
首页 > 其他好文 > 详细

RDD

时间:2020-02-20 10:08:53      阅读:70      评论:0      收藏:0      [点我收藏+]

标签:transform   节点   form   park   返回结果   假设   mic   一个   使用   

RDD 的操作函数(operation)主要分为2种类型 Transformation 和 Action.

 

 

在这里只读表示当你对一个 RDD 进行了操作,那么结果将会是一个新的 RDD, 这种情况放在代码里,假设变换前后都是使用同一个变量表示这一 RDD,

RDD 里面的数据并不是真实的数据,而是一些元数据信息,记录了该 RDD 是通过哪些 Transformation 得到的,

在计算机中使用 lineage 来表示这种血缘结构,lineage 形成一个有向无环图 DAG, 整个计算过程中,将不需要将中间结果落地到 HDFS 进行容错,加入某个节点出错,则只需要通过 lineage 关系重新计算即可

技术图片

 

 Transformation 操作不是马上提交 Spark 集群执行的,Spark 在遇到 Transformation 操作时只会记录需要这样的操作,并不会去执行,需要等到有 Action 操作的时候才会真正启动计算过程进行计算.针对每个 Action,Spark 会生成一个 Job, 从数据的创建开始,经过 Transformation, 结尾是 Action 操作.这些操作对应形成一个有向无环图(DAG),形成 DAG 的先决条件是最后的函数操作是一个Action.

 

DD的两种操作是:

转化操作:返回一个新的RDD的操作。

行动操作:向程序返回结果或把结果写入外部系统的操作,会触发实际的计算。

RDD

标签:transform   节点   form   park   返回结果   假设   mic   一个   使用   

原文地址:https://www.cnblogs.com/focusonoutput/p/12334204.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!