码迷,mamicode.com
首页 > 其他好文 > 详细

spark记录

时间:2018-03-06 17:00:30      阅读:158      评论:0      收藏:0      [点我收藏+]

标签:tor   parse   初始化   class   pos   ssi   需要   时间   each   

版本 spark2.0

1.在SparkSession类里存在变量SparkContext,而一个spark任务只能有一个SparkContext且只能存在driver里,更改参数可以设置允许存在多个SparkContext但只能有一个是激活状态。因此,不能在foreachPartition这种需要在Executor里运行的方法里使用SparkSession操作数据库,sparSession本身可以序列化传过去,但在executor里sparSession的SparkContext为null,会报空指针异常。

2.spark每次获取kafka的数量可以通过配置参数“spark.streaming.kafka.maxRatePerPartition”设置(kafka的每个分区每秒获取数据的最大数量),间隔时间可以通过JavaStreamingContext初始化的时候设置,spark每次获取kafka的数量最大数量是 spark获取kafka间隔时间 x 参数“spark.streaming.kafka.maxRatePerPartition” x kafka分区数量

spark记录

标签:tor   parse   初始化   class   pos   ssi   需要   时间   each   

原文地址:https://www.cnblogs.com/zhuzhixijiang/p/8514648.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!