搜索关键字：数据倾斜，搜索到141个结果！码迷,mamicode.com！

可以看日志 mr日志可以看执行计划分析数据倾斜，性能瓶颈的利器啊可以看表结构 ...

分类：其他好文时间：2018-03-06 16:59:09 阅读次数：125

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作 ...

分类：其他好文时间：2018-02-23 13:29:33 阅读次数：198

某人视频教学中提到的一些问题

1. RDD1 和 RDD2 进行 Join 操作，其中采用采样的方式发现 RDD1 中有严重的数据倾斜的 Key 第一步：采用 Spark RDD 中提供的采样接口，基于采样的数据可以计算出哪个（哪些）Key 的 Values 个数最多第二步：把全休数据分成两部分，即把原来一个RDD1 变成 ...

分类：其他好文时间：2018-01-08 22:29:10 阅读次数：196

Hive 优化详解

Hadoop之数据仓库Hive运行机制，常用操作，数据倾斜原因及优化详解2017-12-17 一、Hive是什么 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载(ETL)，这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制 ...

分类：其他好文时间：2017-12-17 16:52:35 阅读次数：245

017-Hadoop Hive sql语法详解7-去重排序、数据倾斜

017-Hadoop Hive sql语法详解7-去重排序、数据倾斜 ...

分类：数据库时间：2017-11-25 19:20:01 阅读次数：210

八、Hadoop学习笔记————调优之Hive调优

表1表2的join和表3表4的join同时运行此法需要关注是否有数据倾斜（大量数据集中在某一区间段） ...

分类：其他好文时间：2017-11-01 17:50:23 阅读次数：149

Spark性能优化--数据倾斜调优与shuffle调优

一、数据倾斜发生的原理原理：在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话，就会发生数据倾斜。数据倾斜只会发生在shuffle过程中。常用的并且可能会触发shuffl ...

分类：其他好文时间：2017-10-31 20:16:39 阅读次数：213

Spark Shuffle原理、Shuffle操作问题解决和参数调优

摘要： 1 shuffle原理 1.1 mapreduce的shuffle原理 1.1.1 map task端操作 1.1.2 reduce task端操作 1.2 spark现在的SortShuffleManager 2 Shuffle操作问题解决 2.1 数据倾斜原理 2.2 数据倾斜问题发现与 ...

分类：其他好文时间：2017-10-07 18:45:55 阅读次数：141

optimization & error -01

调优都是在场景限制之下。大部分选择并非一定。做测试来寻找瓶颈。（shuffle操作数量、RDD持久化操作数量以及gc）开发调优、资源调优、数据倾斜调优、shuffle调优几个部分。（涉及代码质量（api及数据结构），参数，数据质量，考虑内存与网络而选择的模式（广播、序列化），官网建议） RDD（ ...

分类：其他好文时间：2017-10-06 10:28:52 阅读次数：147

解决spark中遇到的数据倾斜问题

一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长，或者等待很长时间后提示你内存不足，执行失败。二. 数据倾斜的原因常见于各种shuffle操作，例如reduceByKey,groupByKey,join等操作。数据问题 spark使用问题三. 数据倾斜的后果一个理 ...

分类：其他好文时间：2017-09-29 14:02:57 阅读次数：157

共141条上一页 1 ... 6 7 8 9 10 ... 15 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)