标签:
概述:
研究背景:
主要工作:
关于D-Stream:
注意: D-Stream的容错机制基于RDD通过构造lineage图实现,在最初提出Spark的论文中有详细介绍,这里不再赘述。
实例:页面访问时间计数
实现:
pageViews = readStream("http://...", "1s")
ones = pageViews.map(event => (event.url, 1))
counts = ones.runningReduce((a, b) => a + b)
说明:
关于Spark Streaming:
批量计算 vs. 流式计算:
Discretized Streams: An Efficient and Fault-Tolerant Model for Stream Processing on Large Clusters
标签:
原文地址:http://www.cnblogs.com/LionHeart-Grady/p/thesis-03.html