标签:
背景:
使用Spark主要是使用Spark Streaming,Spark Streaming的魔力之所在于:
1. 流式处理,如今是一个流处理时代,一切与流不相关的都是无效的数据。
2. 流式处理才是真正的对大数据的印象。Spark Streaming的流式处理非常强大的一个功能是可以在线处理,ML,Spark SQL等流进来的数据,这也是Spark提供的一体化,多元化的技术架构设计带来的优势。
3. Spark Streaming本身是一个程序,Spark Streaming在处理数据的时候会不断感知数据。所以对构建复杂的Spark应用程序,就极为有参考价值。
在做Spark实验的时候,如果想分析数据的如何流进来,是怎么样被计算的,我们就可以通过Spark Streaming来实现,将batch Interval设置时间非常大,这样里面的很多细节就可以通过log日志观察,这就相当于过去摄影师将李小龙的功夫,然后慢放这样就可以看的更加清晰。
一: Spark Streaming另类在线实验
总结:
本次课程在很短的时间内对于Spark Streaming在处理数据的逻辑上有了本质的理解,后续的课程中会将深入理解,这其中的诸多细节过程,真相也会慢慢浮出水平。作为三把斧系列,好戏还在后面!!
本课程笔记来源于:
第1课:通过案例对SparkStreaming 透彻理解三板斧之一:解密SparkStreaming另类实验及SparkStreaming本质解析
标签:
原文地址:http://blog.csdn.net/snail_gesture/article/details/51330303