Spark Streaming

时间：2017-07-03 10:12:00 阅读：229 评论：0 收藏：0 [点我收藏+]

标签：class 系统操作系统 inux 分享开始流式 sub orm

一、梗概

即时处理流式数据；

Spark Streaming 使用离散化流(discretized stream) DStream作为抽象表示；

DStream是随时间推移而收到的数据的序列。在内部，每个时间区间收到的数据都作为RDD存在，而DStream是由这些 RDD所组成的序列 (因此得名“离散化”)。

DStream 可以从各种输入源创建，比如 Flume、Kafka 或者 HDFS。

创建出来的DStream支持两种操作，一种是转化操作(transformation)，会生成一个新的DStream；另一种是输出操作(output operation)，可以把数据写入外部系统中。

批处理程序不同，Spark Streaming 应用需要进行额外配置来保证 24/7 不间断工作。

二、示例：

流计算的实现从创建 StreamingContext 开始。StreamingContext 会在底层创建出 SparkContext，用来处理数据。

//用 Scala 进行流式筛选，打印出包含“error”的行
// 从SparkConf创建StreamingContext并指定1秒钟的批处理大小 

val ssc = new StreamingContext(conf, Seconds(1))

// 连接到本地机器7777端口上后，使用收到的数据创建DStream 
val lines = ssc.socketTextStream("localhost", 7777)

// 从DStream中筛选出包含字符串"error"的行
val errorLines = lines.filter(_.contains("error")) 

// 打印出有"error"的行
errorLines.print()

//用 Scala 进行流式筛选，打印出包含“error”的行
// 启动流计算环境StreamingContext并等待它"完成" 
ssc.start()

// 等待作业完成
ssc.awaitTermination()

//在 Linux/Mac 操作系统上运行流计算应用并提供数据
$ spark-submit --class com.oreilly.learningsparkexamples.scala.StreamingLogInput $ASSEMBLY_JAR local[4]
$ nc localhost 7777 # 使你可以键入输入的行来发送给服务器 
<此处是你的输入>