Spark版本定制八：Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考

时间：2016-05-24 00:08:29 阅读：187 评论：0 收藏：0 [点我收藏+]

标签：

本期内容：

1、DStream与RDD关系彻底研究

2、Streaming中RDD的生成彻底研究

一、DStream与RDD关系彻底研究

课前思考：

RDD是怎么生成的？

RDD依靠什么生成？根据DStream来的

RDD生成的依据是什么？

Spark Streaming中RDD的执行是否和Spark Core中的RDD执行有所不同？

运行之后我们对RDD怎么处理？

ForEachDStream不一定会触发Job的执行，但是它一定会触发job的产生，和Job是否执行没有关系；

对于DStream类，源码中是这样解释的。

* DStreams internally is characterized by a few basic properties:
* - A list of other DStreams that the DStream depends on
* - A time interval at which the DStream generates an RDD
* - A function that is used to generate an RDD after each time interval

大致意思是：

1.DStream依赖于其他DStream，除了第一个DStream，因为第一个DStream基于数据源产生，用于接收数据，所以无其他依赖；

2.基于DStream怎么产生RDD？每隔BatchDuration，DStream生成一个RDD；

3.每隔BatchDuration，DStream内部函数会生成RDD；

问：DStream到底是怎么产生RDD的？