一、问题描述 查询的语句类似如下: select * from table_name where xxx='yyy' limit 10; 当前的hive表存储格式是orc格式,执行引擎是tez,并行度也已经调整到几十了,但是在执行这个sql的时候,发现一直卡住,执行不成功。 二、问题现象 and 分 ...
分类:
其他好文 时间:
2020-12-25 13:03:17
阅读次数:
0
最近经常有小伙伴留言,核心问题都比较类似,就是虽然接触Spark有一段时间了,但是搞不明白一个问题,为什么我从HDFS上加载不同的文件时,打印的分区数不一样,并且好像spark.default.parallelism这个参数时不是一直起作用?其实笔者之前的文章已有相关介绍,想知道为什么,就必须了解S... ...
分类:
其他好文 时间:
2020-11-23 12:25:04
阅读次数:
5
1. 产品的架构是数据采集到 kafka,由 flink 读取,送入ES 2. 这个过程中,涉及: kafka分区数,flink并行度,ES 分区数和副本 3. kafka 分区数决定了后面 flink 的并行度,最好是 kafka 的分区数和 flink 的并行度一致 4. 写入 ES 时,需要先 ...
分类:
其他好文 时间:
2020-11-16 14:01:57
阅读次数:
18
1 InputFormat数据输入 1.1 切片与MapTask并行度决定机制 1.问题引出 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。 思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高 ...
分类:
其他好文 时间:
2020-07-17 09:35:30
阅读次数:
65
需要根据CPU、IO硬件信息综合考虑。但是并行虽然是和cpu核数有关,真实情况也遇到过,大量异步io的空等待。因此个人建议并行度最多不超过16,一般8就够了 之前遇到某券商A,由于 degree 导致 AIX 的CPU 使用率飙升的问题。也遇到过某券商B核心系统上线前一晚0点转数据时 paralle ...
分类:
数据库 时间:
2020-06-23 13:11:27
阅读次数:
54
yarn 一共有3个类型的调度器:FIFO调度器、容量调度器、公平调度器。 1,FIFO调度器。先进先出,队列中同一时间只有一个任务在运行。该任务独占整个集群的资源。 2,容量调度器。多队列,每个队列内部先进先出,同一个队列同时间只有一个任务在运行,任务的并行度为队列的个数。 3,公平调度器。同个队 ...
分类:
其他好文 时间:
2020-06-16 11:35:39
阅读次数:
107
在 Flink 这个框架中,有很多独有的概念,比如分布式缓存、重启策略、并行度等,这些概念是我们在进行任务开发和调优时必须了解的,这一课时我将会从原理和应用场景分别介绍这些概念。 分布式缓存熟悉 Hadoop 的你应该知道,分布式缓存最初的思想诞生于 Hadoop 框架,Hadoop 会将一些数据或 ...
分类:
其他好文 时间:
2020-05-10 22:47:20
阅读次数:
125
1、参数配置(并行度)分区的默认个数等于对spark.default.parallelism的指定值2、根据父rdd的reduceTask数量3、读取hdfs的文件生成的rddrdd分区的数量等于hdfs的文件的block4、sparkStreaming生成的rdd根据block interval, ...
分类:
其他好文 时间:
2020-05-08 16:12:24
阅读次数:
129
Flink运行模式分为:集群模式、单机模式 集群模式:Flink的并行度取决于配置文件中的默认值,如下如所示: 在此配置的默认值下,全局的所有算子平行度都是1,我们也可以在程序中重写这个并行度 设置方式如下: 在本地模式下:默认的并行度为CPU核数可以执行线程数的最大值。比如:一台 8核 16线程的 ...
分类:
其他好文 时间:
2020-04-11 18:11:57
阅读次数:
140
Input阶段将数据节点上的数据进行反序列化,然后划分切片。 数据切片:(1)一个job的map阶段并行度由客户端在提交job时的切片数决定 (2)每个切片分配一个MapTask并行实例处理 (3)默认情况下,切片的大小等于BlockSize,也就是数据块大小 ...
分类:
其他好文 时间:
2020-03-18 13:37:49
阅读次数:
85