码迷,mamicode.com
首页 > 其他好文 > 详细

Spark RDD 的宽依赖和窄依赖 -- (视频笔记)

时间:2015-12-29 16:08:02      阅读:218      评论:0      收藏:0      [点我收藏+]

标签:

窄依赖 narrow dependency

map,filter,union ,

join(co-partitioned)制定了父RDD中的分片具体交给哪个唯一的子RDD

并行的,RDD分片是独立的。

只依赖相同ID的分片

range分片

one to dependency

range dependency

内部可以previously computed partition

可以将计算合并,可以极大的提升效率,编写的时候可能是多个函数,执行的时候合并成一个函数,极大的减少了零碎内存或磁盘资源。

 

宽依赖

groupByKey,join with inputs not co-partitioned

多个子RDD的分片会依赖同一个父RDD分片

或者说同一个父RDD的分片都有多个子RDD的分片使用。

会产生shuffle。

shuffle dependency

【hash shuffle,sort shuffle】

 

技术分享

 

Spark RDD 的宽依赖和窄依赖 -- (视频笔记)

标签:

原文地址:http://www.cnblogs.com/isenhome/p/5085872.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!