通过案例对SparkStreaming透彻理解三板之二

时间：2016-05-07 09:05:46 阅读：135 评论：0 收藏：0 [点我收藏+]

标签：

1.解密Spark Streaming运行机制

2.解密Spark Streaming架构

I.Spark Core是基于RDD形成的，RDD之间都会有依赖关系，Spark Streaming在RDD上的时间维度，DStream就是在RDD的基础之上加上了时间维度。DStream就是RDD的模板，随着时间的流逝不断地实例化DStream，以数据进行填充DStream Graph,静态的RDD DAG模板，这个模板就是DStream Graph,

II.基于DStream 的依赖构造成DStream Graph是RDD DAG的模板

Dstream是RDD的模板，随着DStream的依赖关系构成Dstream Graph

III.DStream是逻辑级别，RDD是物理级别

@transient
private[streaming] var generatedRDDs = new HashMap[Time, RDD[T]] ()

Dstrem就是在RDD的基础上加上了时间的维度所以整个SparkStreaming就是时空维度

DStream的compute需要传入一个时间参数，通过时间获取相应的RDD，然后再对RDD进行计算

/** Method that generates a RDD for the given time */

def compute(validTime: Time): Option[RDD[T]]

我们查看SparkStreaming的运行日志，就可以看出和RDD的运行几乎是一致的：

技术分享

动态的job控制器会根据我们设定的时间间隔收集到数据，让静态的Dstream Graph活起来变成RDDGraph

如果数据处理不过来，就可以限流，Spark Streaming在运行的过程中可以动态地调整自己的资源，CPU

技术分享

备注：

1、DT大数据梦工厂微信公众号DT_Spark
2、IMF晚8点大数据实战YY直播频道号：68917580
3、新浪微博: http://www.weibo.com/ilovepains

通过案例对SparkStreaming透彻理解三板之二

标签：

原文地址：http://blog.csdn.net/cary_1991/article/details/51335483

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行