关键字 |
情形 |
后果 |
join |
其中一个表较小,但key集中 |
分发到某一个或几个reduce上的数据远高于平均值 |
大表与大表关联,但是分桶的判断字段0值或空值过多 |
这些空值都由一个reduce处理,非常慢 |
|
group by |
Group by维度过小,某值的数量过多 |
处理某值的reduce非常耗时 |
count distinct |
某特殊值过多 |
处理此特殊值的reduce耗时 |
Hive语法层面优化之七数据倾斜总结,布布扣,bubuko.com
原文地址:http://www.cnblogs.com/luogankun/p/3857535.html