码迷,mamicode.com
首页 > 其他好文 > 详细

spark官网学习

时间:2018-05-24 18:07:05      阅读:165      评论:0      收藏:0      [点我收藏+]

标签:方式   topic   record   并行处理   并行   send   union   nec   doc   

1、foreachRDD设计模式

正确使用foreachRDD的方式,每一个分区创建一个单例connection对象。

dstream.foreachRDD { rdd =>
  rdd.foreachPartition { partitionOfRecords =>
    //创建单例对象
  val connection = createNewConnection() partitionOfRecords.foreach(record => connection.send(record)) connection.close() } }

2、并行机制

  • 数据并行接收,以kafka为例,从多个topics接收数据。
val numStreams = 5
val kafkaStreams = (1 to numStreams).map { i => KafkaUtils.createStream(...) }
val unifiedStream = streamingContext.union(kafkaStreams)
unifiedStream.print()
  • 数据并行处理

  和spark.default.parallelism有关。

3、提交Jobs

Driver:运行main()创建SparkContext;监听Executor,提供Web UI。

在cluster模式,driver内部起一个AM,AM受yarn管理。在client模式,AM仅仅用来申请资源。

参考链接:https://spark.apache.org/docs/1.6.1/streaming-programming-guide.html

 

spark官网学习

标签:方式   topic   record   并行处理   并行   send   union   nec   doc   

原文地址:https://www.cnblogs.com/VillageKnight-Ding/p/9084090.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!