码迷,mamicode.com
首页 > 其他好文 > 详细

SparkStreaming(源码阅读十二)

时间:2016-12-10 18:31:38      阅读:126      评论:0      收藏:0      [点我收藏+]

标签:快速   log   src   spark   .com   开始   map   创建   bat   

  要完整去学习spark源码是一件非常不容易的事情,但是咱可以积少成多嘛~那么,Spark Streaming是怎么搞的呢?

  本质上,SparkStreaming接收实时输入数据流并将它们按批次划分,然后交给Spark引擎处理生成按照批次划分的结果流

  技术分享

  SparkStreaming提供了表示连续数据流的、高度抽象的被称为离散流的Dstream,可以使用kafka、Flume和Kiness这些数据源的输入数据流创建Dstream,也可以在其他Dstream上使用map、reduce、join、window等操作创建Dsteram。Dstream本质上呢,是表示RDD的序列

  Spark Streaming首先将数据切分为一定时间范围(Duration)的数据集,然后积累一批(Batch)Duration数据集后单独启动一个任务线程处理。Spark核心提供的从DAG重新调度任务和并行执行,能够快速完成数据从故障中恢复的工作。

  那么下来就从SparkStreaming 的StreamingContext初始化开始:

SparkStreaming(源码阅读十二)

标签:快速   log   src   spark   .com   开始   map   创建   bat   

原文地址:http://www.cnblogs.com/yangsy0915/p/6156147.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!