搜索关键字：并行度，搜索到125个结果！码迷,mamicode.com！

大表数据过滤查询很慢

一、问题描述查询的语句类似如下： select * from table_name where xxx='yyy' limit 10; 当前的hive表存储格式是orc格式，执行引擎是tez，并行度也已经调整到几十了，但是在执行这个sql的时候，发现一直卡住，执行不成功。二、问题现象 and 分 ...

分类：其他好文时间：2020-12-25 13:03:17 阅读次数：0

重要 | Spark分区并行度决定机制

最近经常有小伙伴留言，核心问题都比较类似，就是虽然接触Spark有一段时间了，但是搞不明白一个问题，为什么我从HDFS上加载不同的文件时，打印的分区数不一样，并且好像spark.default.parallelism这个参数时不是一直起作用？其实笔者之前的文章已有相关介绍，想知道为什么，就必须了解S... ...

分类：其他好文时间：2020-11-23 12:25:04 阅读次数：5

elasticsearch 结合 flink，kafka 性能调优经验

1. 产品的架构是数据采集到 kafka，由 flink 读取，送入ES 2. 这个过程中，涉及： kafka分区数，flink并行度，ES 分区数和副本 3. kafka 分区数决定了后面 flink 的并行度，最好是 kafka 的分区数和 flink 的并行度一致 4. 写入 ES 时，需要先 ...

分类：其他好文时间：2020-11-16 14:01:57 阅读次数：18

Hadoop基础（十七）：MapReduce框架原理（一）切片机制（一）

1 InputFormat数据输入 1.1 切片与MapTask并行度决定机制 1．问题引出 MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。思考：1G的数据，启动8个MapTask，可以提高集群的并发处理能力。那么1K的数据，也启动8个MapTask，会提高 ...

分类：其他好文时间：2020-07-17 09:35:30 阅读次数：65

oracle parellel 案例

需要根据CPU、IO硬件信息综合考虑。但是并行虽然是和cpu核数有关，真实情况也遇到过，大量异步io的空等待。因此个人建议并行度最多不超过16，一般8就够了之前遇到某券商A，由于 degree 导致 AIX 的CPU 使用率飙升的问题。也遇到过某券商B核心系统上线前一晚0点转数据时 paralle ...

分类：数据库时间：2020-06-23 13:11:27 阅读次数：54

yarn的调度器以及它们的区别

yarn 一共有3个类型的调度器：FIFO调度器、容量调度器、公平调度器。 1，FIFO调度器。先进先出，队列中同一时间只有一个任务在运行。该任务独占整个集群的资源。 2，容量调度器。多队列，每个队列内部先进先出，同一个队列同时间只有一个任务在运行，任务的并行度为队列的个数。 3，公平调度器。同个队 ...

分类：其他好文时间：2020-06-16 11:35:39 阅读次数：107

flink常见的核心概念

在 Flink 这个框架中，有很多独有的概念，比如分布式缓存、重启策略、并行度等，这些概念是我们在进行任务开发和调优时必须了解的，这一课时我将会从原理和应用场景分别介绍这些概念。分布式缓存熟悉 Hadoop 的你应该知道，分布式缓存最初的思想诞生于 Hadoop 框架，Hadoop 会将一些数据或 ...

分类：其他好文时间：2020-05-10 22:47:20 阅读次数：125

Spark中rdd分区数量的决定因素

1、参数配置(并行度)分区的默认个数等于对spark.default.parallelism的指定值2、根据父rdd的reduceTask数量3、读取hdfs的文件生成的rddrdd分区的数量等于hdfs的文件的block4、sparkStreaming生成的rdd根据block interval， ...

分类：其他好文时间：2020-05-08 16:12:24 阅读次数：129

Flink中并行度相关问题

Flink运行模式分为：集群模式、单机模式集群模式：Flink的并行度取决于配置文件中的默认值,如下如所示：在此配置的默认值下，全局的所有算子平行度都是1，我们也可以在程序中重写这个并行度设置方式如下：在本地模式下：默认的并行度为CPU核数可以执行线程数的最大值。比如：一台 8核 16线程的 ...

分类：其他好文时间：2020-04-11 18:11:57 阅读次数：140

MapReduce_input阶段

Input阶段将数据节点上的数据进行反序列化，然后划分切片。数据切片：（1）一个job的map阶段并行度由客户端在提交job时的切片数决定（2）每个切片分配一个MapTask并行实例处理（3）默认情况下，切片的大小等于BlockSize，也就是数据块大小 ...

分类：其他好文时间：2020-03-18 13:37:49 阅读次数：85

共125条 1 2 3 4 ... 13 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)