码迷,mamicode.com
首页 > 数据库 > 详细

017-Hadoop Hive sql语法详解7-去重排序、数据倾斜

时间:2017-11-25 19:20:01      阅读:210      评论:0      收藏:0      [点我收藏+]

标签:表操作   clu   sql   rom   倾斜   排序   完成   部分   选择排序   

一、数据去重排序

1.1、去重

  distinct与group by

  尽量避免使用distinct进行排重,特别是大表操作,用group by代替  

-- 不建议
select DISTINCT key from a
-- 建议
select key from a group by key

1.2、排序优化

  只有order by产生的结果是全局有序的,可以根据实际场景进行选择排序。

  1、order by 实现全局排序,一个reduce实现,由于不能并发执行,所以效率偏低

  2、sort by实现部分有序,单个reduce输出的结果是有序的,效率高,通常和distribute by关键字一起使用

    (distribute by 关键字可以指定map到reduce端的分发key)

  3、cluster by col1等价于 distribute by col1 sort by col1但不能指定排序规则

二、数据倾斜

  任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。

  单一reduce的记录数与平均记录数差异过大,通常可能达到30倍甚至更多。最长时长远大于平均时长。

 

017-Hadoop Hive sql语法详解7-去重排序、数据倾斜

标签:表操作   clu   sql   rom   倾斜   排序   完成   部分   选择排序   

原文地址:http://www.cnblogs.com/bjlhx/p/7896037.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!