标签:组成 word cal schedule 列表 单位 app 位置 ima
(1)分区--- partitions
Application program的组成
具体流程(以standalone模式为例)
任务调度
DAGScheduler
(1)构建Stage—碰到shuffle就split
(2)记录哪个RDD 或者Stage 输出被物化
(3)重新提交shuffle 输出丢失的stage
(4)将Taskset 传给底层调度器
(5)本地性策略--- preferredLocations(p)
1.spark-cluster TaskScheduler 2.yarn-cluster YarnClusterScheduler 3.yarn-client YarnClientClusterScheduler
TaskScheduler
(1)为每一个TaskSet 构建一个TaskSetManager 实例管理这个TaskSet 的生命周期
(2)数据本地性决定每个Task 最佳位置(process-local, node-local, rack-local and then and any
(3)提交taskset( 一组task) 到集群运行并监控
(4)推测执行,碰到straggle 任务放到别的节点上重试
(5)出现shuffle 输出lost 要报告fetch failed 错误
ScheduleBacked
(1)实现与底层资源调度系统的交互(YARN,mesos等)
(2)配合TaskScheduler实现具体任务执行所需的资源分配(核心接口receiveOffers)
val lines = ssc.textFile(args(1)) // 输入 val words = lines.flatMap(x =>x.split(" ")) words.cache() // 缓存 val wordCounts = words.map(x =>(x, 1) ) val red = wordCounts.reduceByKey( (a,b)=>{a + b} , 8) red.saveAsTextFile(“/root/Desktop/out” , 8) // 行动
Spark运行模式列表
标签:组成 word cal schedule 列表 单位 app 位置 ima
原文地址:http://www.cnblogs.com/zlslch/p/6610724.html