Hive学习（八）排序：order by、sort by、distribute by、cluster by

时间：2019-07-26 14:26:15 阅读：113 评论：0 收藏：0 [点我收藏+]

标签：insert 必须 clust order by reduce 就是 sql select str

hive中有四种排序：

1、全局排序：order by

2、内部排序：sort by

3、分区排序：distribute by

4、组合排序：cluster by

全局排序：order by

说明：全局排序是在一个MapReduce中进行排序的。

参数：

ASC：是升序的意思和mysql一样，同时也是默认的参数。

DESC：降序的意思和MySQL中一样。

举例：查询学生的信息并且按成绩高低排序

  select * from student_score_info order by score

注意：以上这种操作，在实际工作中要慎用，应为使用的如果不是数据库，而是数据仓库软件例如现在的hive ,操作的是数据仓库执行的数据量是非常庞大的，如果使用了全局排序则可能资源的严重消耗

内部排序：sort by

说明：每个mapreduce的内部排序,对全局结果集来说并不是排序。

关键字：sort by

步骤：

设置reduce的个数： set mapreduce.job.reduce=3;

语句：

  select * from student_score_info sort by score

注意：排序后的结果直接看不出来，得要将数据导出到本地才能看出效果

分区排序：distribute by

说明：类似MR中的partition ,进行分区的时候使用的，一般结合sort by关键字使用。

关键字：distribute by

例子：先按照部门编号分区，在按照员工编号排序。

必须要设置reduce的数量不为1 （为多个） set mapreduce.job.reduce=2

语句：

  nsert overwrite local directory ‘/data/sort/emp2‘ 
  select * from emp distribute by deptno sort by empno desc;

注意：distribute by 语句必须写在 sort by 之前；对于distribute by 的测试的时候必须给定多个reduce 不然是没有办法分区的。

组合排序：cluster by

说明：当distribute by与sort by 字段相同的时候，可以使用cluster by 关键字。

关键字：cluster by

例子：

  insert overwrite local directory ‘/data/sort/emp4‘
  select * from emp cluster by deptno;

注意：能分区也可以排序，但缺点就是只能对一个字段使用；不能指定 asc 或者desc 默认降序排序。

Hive学习（八）排序：order by、sort by、distribute by、cluster by

标签：insert 必须 clust order by reduce 就是 sql select str

原文地址：https://www.cnblogs.com/wwbz/p/11119122.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

Hive学习（八） 排序：order by、sort by、distribute by、cluster by

hive中有四种排序：

全局排序：order by

内部排序：sort by

分区排序：distribute by

组合排序：cluster by

Hive学习（八）排序：order by、sort by、distribute by、cluster by