搜索关键字：spark性能，搜索到94个结果！码迷,mamicode.com！

【转载】Spark性能优化指南——高级篇

前言数据倾斜调优调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一：使用Hive ETL预处理数据解决方案二：过滤少数导致倾斜的key 解决方案三：提高shuffle操作的并行度解决方案四：两 ...

分类：其他好文时间：2017-05-11 20:26:02 阅读次数：240

spark性能优化之使用高性能序列化类库

如果使用序列化技术，在执行序列化操作的时候很慢或者是序列化之后的数据量还是很大，那么会让分布式应用程序性能下降很多，spark自身就会在一些地方对数据进行序列化，比如shuffle写磁盘，还有就是如果我们算子函数使用了外部数据，（比如Java内置类型，或者自定义类型）那么..

分类：其他好文时间：2017-05-10 17:52:14 阅读次数：158

Spark性能调优之合理设置并行度

Spark性能调优之合理设置并行度 1.Spark的并行度指的是什么？ spark作业中，各个stage的task的数量，也就代表了spark作业在各个阶段stage的并行度！当分配完所能分配的最大资源了，然后对应资源去调节程序的并行度，如果并行度没有与资源相匹配，那么导致你分配下去的资源都浪费掉 ...

分类：其他好文时间：2017-04-13 08:49:37 阅读次数：189

Spark性能调优之资源分配

性能优化王道就是给更多资源！机器更多了，CPU更多了，内存更多了，性能和速度上的提升，是显而易见的。基本上，在一定范围之内，增加资源与性能的提升，是成正比的；写完了一个复杂的spark作业之后，进行性能调优的时候，首先第一步，我觉得，就是要来调节最优的资源配置；在这个基础之上，如果说你的spar ...

分类：其他好文时间：2017-04-13 08:48:21 阅读次数：206

Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

本文转发自Jason’s Blog，原文链接 http://www.jasongj.com/spark/skew/ 摘要为何要处理数据倾斜（Data Skew）什么是数据倾斜数据倾斜是如何造成的从数据源直接读取。如读取HDFS，Kafka 读取上一个Stage的Shuffle数据如何缓解/ ...

分类：其他好文时间：2017-03-21 15:35:34 阅读次数：209

Spark性能优化指南——基础篇

转载美团技术团队原文地址 http://tech.meituan.com/spark-tuning-basic.html 前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计 ...

分类：其他好文时间：2017-03-12 19:46:35 阅读次数：224

Spark性能调优之解决数据倾斜

Spark性能调优之解决数据倾斜数据倾斜七种解决方案 shuffle的过程最容易引起数据倾斜 1.使用Hive ETL预处理数据  ? 方案适用场景：如果导致数据倾斜的是Hive表。如果该Hive表中的数据本身很不均匀（比如某个 key对应了100万数据，其他key才对应了1 ...

分类：其他好文时间：2017-03-12 15:27:05 阅读次数：249

Spark性能调优之代码方面的优化

Spark性能调优之代码方面的优化 1.避免创建重复的RDD 对性能没有问题，但会造成代码混乱 2.尽可能复用同一个RDD，减少产生RDD的个数  3.对多次使用的RDD进行持久化（cache,persist,checkpoint）如何选择一种最合适的持久化策略？默认MEM ...

分类：其他好文时间：2017-03-12 15:22:00 阅读次数：177

Spark性能调优之合理设置并行度

Spark性能调优之合理设置并行度 1.Spark的并行度指的是什么？ spark作业中，各个stage的task的数量，也就代表了spark作业在各个阶段stage的并行度！  当分配完所能分配的最大资源了，然后对应资源去调节程序的并行度，如果并行度没有与资源相匹配，那么导致 ...

分类：其他好文时间：2017-03-12 15:21:12 阅读次数：922

[Spark性能调优] 第四章 : Spark Shuffle 中 JVM 内存使用及配置内幕详情

本课主题 JVM 內存使用架构剖析 Spark 1.6.x 和 Spark 2.x 的 JVM 剖析 Spark 1.6.x 以前 on Yarn 计算内存使用案例 Spark Unified Memory 的运行原理和机制引言 Spark 从1.6.x 开始对 JVM 的内存使用作出了一种全新的 ...

分类：其他好文时间：2017-03-12 15:01:43 阅读次数：658

共94条上一页 1 ... 3 4 5 6 7 ... 10 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)