码迷,mamicode.com
首页 > 编程语言 > 详细

Hive学习(八) 排序:order by、sort by、distribute by、cluster by

时间:2019-07-26 14:26:15      阅读:113      评论:0      收藏:0      [点我收藏+]

标签:insert   必须   clust   order by   reduce   就是   sql   select   str   

hive中有四种排序:

1、全局排序:order by

2、内部排序:sort by

3、分区排序:distribute by

4、组合排序:cluster by

全局排序:order by

说明:全局排序是在一个MapReduce中进行排序的。

参数:

ASC:是升序的意思和mysql一样,同时也是默认的参数。

DESC:降序的意思和MySQL中一样。

举例:查询学生的信息并且按成绩高低排序

  select * from student_score_info order by score

注意:以上这种操作,在实际工作中要慎用,应为使用的如果不是数据库,而是数据仓库软件例如现在的hive ,操作的是数据仓库执行的数据量是非常庞大的,如果使用了全局排序则可能资源的严重消耗

内部排序:sort by

说明:每个mapreduce的内部排序,对全局结果集来说并不是排序。

关键字:sort by

步骤:

设置reduce的个数:  set mapreduce.job.reduce=3;  

语句:

  select * from student_score_info sort by score  

注意:排序后的结果直接看不出来,得要将数据导出到本地才能看出效果

 分区排序:distribute by

说明:类似MR中的partition ,进行分区的时候使用的,一般结合sort by关键字使用。

关键字:distribute by

例子:先按照部门编号分区,在按照员工编号排序。

必须要设置reduce的数量不为1 (为多个)  set mapreduce.job.reduce=2  

语句:

  nsert overwrite local directory /data/sort/emp2 
  select * from emp distribute by deptno sort by empno desc; 

注意:distribute by 语句必须写在 sort by 之前;对于distribute by 的测试的时候必须给定多个reduce 不然是没有办法分区的。

组合排序:cluster by

说明:当distribute by与sort by 字段相同的时候,可以使用cluster by 关键字。

关键字:cluster by

例子:

  insert overwrite local directory /data/sort/emp4
  select * from emp cluster by deptno;

注意:能分区也可以排序,但缺点就是只能对一个字段使用;不能指定 asc 或者desc 默认降序排序。

Hive学习(八) 排序:order by、sort by、distribute by、cluster by

标签:insert   必须   clust   order by   reduce   就是   sql   select   str   

原文地址:https://www.cnblogs.com/wwbz/p/11119122.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!