标签:也有 作业 spark 磁盘 pip shuffle map ash 一个
宽依赖和窄依赖的区别是RDD之间是否存在shuffle操作。
窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用,即一个父RDD对应一个子RDD或多个父RDD对应一个子RDD
宽依赖指子RDD的每个分区都依赖于父RDD的多个分区
Spark默认两种划分器:HashPartitioner和RangePartitioner
标签:也有 作业 spark 磁盘 pip shuffle map ash 一个
原文地址:https://www.cnblogs.com/chenshaowei/p/12376360.html