Hive语法层面优化之一数据倾斜介绍

时间：2014-07-20 22:18:56 阅读：232 评论：0 收藏：0 [点我收藏+]

标签：style color strong 数据 re c

数据倾斜：数据分布不均匀，造成数据大量的集中到一点，造成数据热点；

由于数据并不是平均分配的，会导致各个节点上处理的数据量是不均衡的，所以数据倾斜是无法避免的；

造成数据倾斜的最根本原因：key分发不均匀造成的；

常见的数据倾斜的症状

1) Map阶段快，reduce阶段非常慢；

2) 某些map很快，某些map很慢；

3) 某些reduce很快，某些reduce很慢；

4) 任务进度长时间维持在99%(或100%)，查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成，因为其处理的数据量和其他reduce差异过大。

造成数据倾斜的常见原因

1) key分布不均匀；

2) 某些sql语句本身就有数据倾斜；

　　a) join时on关键字中个别值量很大（如：null值），同key会被分发到同一个reduce去执行造成某个节点数据量很大；----需要重点研究并优化的部分

　　b) count(distinct)在数据量很大的情况下，容易数据倾斜，因为count(distinct)是按照group by字段分组，再按照distinct字段排序。（group by也是按照key进行分发的，有的分发的数据量很大，有的数据量很小，导致数据倾斜的发生）； ----有时无法避免

3) 数据在节点上分布不均匀（集群需要及时扩容，会经常有上线/下线节点的）----无法避免的；

Hive语法层面优化之一数据倾斜介绍,布布扣,bubuko.com

Hive语法层面优化之一数据倾斜介绍

标签：style color strong 数据 re c

原文地址：http://www.cnblogs.com/luogankun/p/3856568.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行