SparkStreaming（源码阅读十二）

时间：2016-12-10 18:31:38 阅读：126 评论：0 收藏：0 [点我收藏+]

　　要完整去学习spark源码是一件非常不容易的事情，但是咱可以积少成多嘛~那么，Spark Streaming是怎么搞的呢？

　　本质上，SparkStreaming接收实时输入数据流并将它们按批次划分，然后交给Spark引擎处理生成按照批次划分的结果流：

　　技术分享

　　SparkStreaming提供了表示连续数据流的、高度抽象的被称为离散流的Dstream,可以使用kafka、Flume和Kiness这些数据源的输入数据流创建Dstream,也可以在其他Dstream上使用map、reduce、join、window等操作创建Dsteram。Dstream本质上呢，是表示RDD的序列。

　　Spark Streaming首先将数据切分为一定时间范围(Duration)的数据集，然后积累一批(Batch)Duration数据集后单独启动一个任务线程处理。Spark核心提供的从DAG重新调度任务和并行执行，能够快速完成数据从故障中恢复的工作。

　　那么下来就从SparkStreaming 的StreamingContext初始化开始：

SparkStreaming（源码阅读十二）

标签：快速 log src spark .com 开始 map 创建 bat

原文地址：http://www.cnblogs.com/yangsy0915/p/6156147.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行