RDD依赖关系

时间：2020-02-20 17:05:54 阅读：81 评论：0 收藏：0 [点我收藏+]

概述

RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。

示例代码如下：

def main(args: Array[String]): Unit = {
    val sc: SparkContext = new SparkContext(new SparkConf()
      .setMaster("local[*]").setAppName("spark"))

    val f: RDD[(String, Int)] = sc.parallelize(Array("hello,spark", "hello,scala", "hello,world"))
      .flatMap(_.split(" "))
      .map((_, 1))

    print(f.toDebugString)//查看依赖信息
    println(f.dependencies)//查看依赖类型
  }

它的依赖信息如下：

(8) MapPartitionsRDD[2] at map at Lineage.scala:11 []
| MapPartitionsRDD[1] at flatMap at Lineage.scala:10 []
| ParallelCollectionRDD[0] at parallelize at Lineage.scala:9 []

从上往下，依次是RDD的转换过程。通过这些信息，当链条中的任意一个RDD的部分分区数据丢失时，它可以根据这些信息重新进行运算，恢复丢失的分区数据。

窄依赖、宽依赖

窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用。窄依赖我们形象的比喻为独生子女。

技术图片