spark记录

时间：2018-03-06 17:00:30 阅读：158 评论：0 收藏：0 [点我收藏+]

标签：tor parse 初始化 class pos ssi 需要时间 each

版本 spark2.0

1.在SparkSession类里存在变量SparkContext，而一个spark任务只能有一个SparkContext且只能存在driver里，更改参数可以设置允许存在多个SparkContext但只能有一个是激活状态。因此，不能在foreachPartition这种需要在Executor里运行的方法里使用SparkSession操作数据库，sparSession本身可以序列化传过去，但在executor里sparSession的SparkContext为null，会报空指针异常。

2.spark每次获取kafka的数量可以通过配置参数“spark.streaming.kafka.maxRatePerPartition”设置（kafka的每个分区每秒获取数据的最大数量），间隔时间可以通过JavaStreamingContext初始化的时候设置，spark每次获取kafka的数量最大数量是 spark获取kafka间隔时间 x 参数“spark.streaming.kafka.maxRatePerPartition” x kafka分区数量

spark记录

标签：tor parse 初始化 class pos ssi 需要时间 each

原文地址：https://www.cnblogs.com/zhuzhixijiang/p/8514648.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行