在Spark的Stage内部的每个Partition都会被分配一个计算任务Task,这些Task是并行执行的; Stage之间的依赖关系变成了一个大粒度的DAG,Stage只有在它没有parent Stage或者parent Stage都已经执行完成后才可以执行,也就是说DAG中的Stage是从前往后顺序执行的。
本文出自 “王家林大数据语录” 博客,请务必保留此出处http://wangjialin2dt.blog.51cto.com/10467465/1723413
王家林每日大数据语录Spark篇0017(2015.11.6于南宁)
原文地址:http://wangjialin2dt.blog.51cto.com/10467465/1723413