Hive学习笔记：基础语法

时间：2016-05-02 16:49:09 阅读：317 评论：0 收藏：0 [点我收藏+]

标签：

Hive基础语法

1、创建表 – 用户表

CREATE [EXTERNAL外部表] TABLE [IF NOT EXISTS 是否存在] HUserInfo (
userid int comment ‘用户Id’,
username string comment ‘用户名称’,
userpwd string comment ‘用户密码’,
createtime string comment ‘创建时间’
)
comment ‘用户信息表’
row format delimited fileds terminated by ‘\t’  -- 声明文件行分隔符
partitioned by (ds string comment ‘当前时间，用于分区字段‘)  --表示按什么字段进行分割，通常来说是按时间。用于增加分区
clustered by userid  --要排序的字段
sorted by username into 32 buckets  -- bucket(桶)排，序这里表示将id按照name进行排序，聚类汇总，然后分区划分到32个散列桶中。
stored as rcfile

hive目前支持三种方式：

1）就是最普通的textfile，数据不做压缩，磁盘开销大，解析开销也大

2）SquenceFIle,hadoop api提供的一种二进制API方式，其具有使用方便、可分割、可压缩等特点。

3）rcfile行列存储结合的方式，它会首先将数据进行分块，保证同一个record在一个分块上，避免读一次记录需要读多个块。其次块数据列式存储，便于数据存储和快速的列存取。RCFILE由于采用是的列式存储，所以加载时候开销较大，但具有很好的查询响应、较好的压缩比。

location ‘/user/hive/test‘; --改变表在hdfs中的位置，可不必先创建。

like Old_UserInfo --复制一个空表，允许用户复制现有的表结构，但是不复制数据。

2、mysql日期函数：sysdate()

3、ODS与EDW的关系

EDW主要为企业提供分析决策服务。时效：T+1

ODS主要实现企业数据整合、共享和准实时运营监控等功能。时效：实时

ODS是EDW的一个有益的补充和扩展。

生产系统中的运营数据通过ETL(抽取、转换、装载)过程进人到ODS中，生产系统之间准实时的数据交换由ODS系统完成，ODS系统同时还将整合好的生产系统下的运营数据通过ETL等方式传送到EDW中，完成运营数据从操作环境进人到分析环境的过程。

ODS作用：

1）对运营数据进行清理整合，提高运营数据质量，是EDW的一个主要数据来源。

2）实现跨系统的近实时报表和查询统计应用。ODS从不同的运营应用系统中采集数据，整合各个系统的共享交易数据，形成企业级数据的整体视图。

3）作为其他生产系统的数据同步源。

技术分享

4、Hive分区（partition）简介

1）在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。

2）分区表指的是在创建表时指定的partition的分区空间。

3）如果需要创建有分区的表，需要在create表的时候调用可选参数partitioned by，详见表创建的语法结构。

4）一个表可以拥有一个或者多个分区，每个分区以文件夹的形式单独存在表文件夹的目录下。

5、Map-side Join和Reduce-side Join的使用场景

1）Map-side Join使用场景是一个大表和一个小表的连接操作，其中，“小表”是指文件足够小，可以加载到内存中。该算法可以将join算子执行在Map端，无需经历shuffle和reduce等阶段，因此效率非常高。

2）Reduce-side Join当两个文件/目录中的数据非常大，难以将某一个存放到内存中时，Reduce-side Join是一种解决思路。该算法需要通过Map和Reduce两个阶段完成，在Map阶段，将key相同的记录划分给同一个Reduce Task（需标记每条记录的来源，便于在Reduce阶段合并），在Reduce阶段，对key相同的进行合并。

6、cast 类型转化

select cast(20 ad double) from hive;

7、Hive建表：一个表可以拥有一个或多个分区，每个分区以文件夹的形式单独存在表文件夹的目录下。

8、Hive的优化思想：

1）尽早尽量过滤数据，减少每个阶段的数据量

2）减少job数

3）解决数据倾斜问题

9、列裁剪：HQL优化方式及使用技巧：只选择真实需要的列。

分区裁剪：HQL优化方式及使用技巧：减少不必要的分区。

10、利用hive 的优化机制减少JOB数：

HQL优化方式及使用技巧：不论是外关联outer join还是内关联inner join，如果Join的key相同，不管有多少个表，都会合并为一个MapReduce任务。

SELECT a.val, b.val, c.valFROM a JOIN b ON (a.key= b.key1) JOIN c ON (c.key= b.key1 ) -> 1个JOB

SELECT a.val, b.val, c.valFROM a JOIN b ON (a.key= b.key1) JOIN c ON (c.key= b.key2) -> 2个JOB

11、JOB输入输出优化：

HQL优化方式及使用技巧：善用muti-insert、union all，不同表的union all相当于multiple inputs，同一个表的union all，相当map一次输出多条。

insert overwrite table tmp1
    select ... from a where 条件1;
insert overwrite table tmp2
    select ... from a where 条件2;

from a
    insert overwrite table tmp1
        select ... where 条件1
    insert overwrite table tmp2
        select ... where 条件2;

12、Local Model：

Select user,itemfrom order_tablelimit 10;
Select * from order_tablelimit 10; (不会生成mapreduce程序)

13、HQL优化方式及使用技巧：避免笛卡尔积

14、数据过滤：HQL优化方式及使用技巧：在JOIN前过滤掉不需要的数据

15、小表放前大表放后原则：

HQL优化方式及使用技巧：在编写带有join操作的代码语句时，应该将条目少的表/子查询放在Join操作符的左边。因为在Reduce 阶段，位于Join 操作符左边的表的内容会被加载进内存，载入条目较少的表可以有效减少OOM（out of memory）即内存溢出。所以对于同一个key来说，对应的value值小的放前，大的放后。

16、Mapjoin()：

HQL优化方式及使用技巧：当小表与大表JOIN时，采用mapjoin,即在map端完成。同时也可以避免小表与大表JOIN 产生的数据倾斜。

17、LEFT SEMI JOIN ：

HQL优化方式及使用技巧：LEFT SEMI JOIN 是IN/EXISTS 子查询的一种更高效的实现，0.13版本以前不支持IN/EXISTS。

18、LEFT SEMI JOIN ：

HQL优化方式及使用技巧

限制条件：只能在ON 子句中设置过滤条件，在WHERE子句、SELECT 子句或其他地方过滤都不行。

Left semi join 与JOIN 的区别：B表有重复值的情况下left semi join 产生一条，join 会产生多条。

19、输入输出优化：合理使用动态分区

20、输入输出优化：union all 优化

HQL优化方式及使用技巧：利用hive对UNION ALL的优化的特性(0.13版本可以直接union)hive对union all优化只局限于非嵌套查询。

21、输入输出优化：合理使用union all

HQL优化方式及使用技巧：不同表太多的union ALL,不推荐使用；通常采用建临时分区表，将不同表的结果insert到不同的分区(可并行)，最后再统一处理。

22、输入输出优化：合理使用UDTF

HQL优化方式及使用技巧：select col1,col2,newCol from myTableLATERAL VIEW explode(myCol) adTableAS newCol

说明：执行过程相当于单独执行了两次读取，然后union到一个表里，但JOB数只有一个。

同样myCol也需要为数组类型，但日常中我们多数情况下是string 类型经过split 函数拆分后获取数组类型。

23、输入输出优化：多粒度计算优化

HQL优化方式及使用技巧：应用UDTF 优化：按不同维度进行订单汇总。

select * from (
    select ‘1‘,province,sum(sales) from order_tablegroup by province
    union all
    select ‘2‘,city,sum(sales) from order_tablegroup by city
    Union all
    select ‘3‘,county,sum(sales) from order_tablegroup by county
) df

24、数据去重与排序：DISTINCT 与GROUP BY

HQL优化方式及使用技巧：尽量避免使用DISTINCT 进行排重，特别是大表操作，用GROUP BY 代替。

25、数据去重与排序：排序优化

HQL优化方式及使用技巧：只有order by 产生的结果是全局有序的，可以根据实际场景进行选择排序。

1）Order by 实现全局排序，一个reduce实现，由于不能并发执行，所以效率偏低。

2）Sort by 实现部分有序，单个reduce输出的结果是有序的，效率高，通常和DISTRIBUTE BY关键字一起使用（DISTRIBUTE BY关键字可以指定map 到reduce端的分发key）

3）CLUSTER BY col1 等价于DISTRIBUTE BY col1 SORT BY col1 但不能指定排序规则。

26、数据倾斜：

HQL优化方式及使用技巧：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。单一reduce的记录数与平均记录数差异过大，通常可能达到3倍甚至更多。最长时长远大于平均时长。

27、Hive有用的新特性：

1）指定列之间的分隔符可以用下面的命令实现：

hive> insert overwrite local directory /home/dd_edw/documents/result‘
hive> row format delimited
hive> fields terminated by ‘\t‘
hive> select * from test;

2）group by 语法增强，group by除了可以跟column alias，也可以跟column position

比如：

select f1(col1), f2(col2), f3(col3), count(1) group by f1(col1), f2(col2), f3(col3);

可以写成

select f1(col1), f2(col2), f3(col3), count(1) group by 1, 2, 3;

3）ALTER VIEW view_nameAS select_statement

4）SHOW CREATE TABLE ([db_name.]table_name|view_name)

5）Explain dependency 语法, 获取input table和input partition

6）实现了TRUNCATE，可以删除HDFS上面相关表格存储的数据，但是

会保持表和metadata的完整性。

28、Hive建库使用RCFile格式，反正就是高效，Facebook再用。

29、基于java的框架：数据库mysql mongodb redis，持久层ibatis，框架springMVC+spring/Autofac，

表现层JDF JQ velocity。

30、Hive动态分区设置：set hive.exec.dynamic.partition.mode=nonstrict;

31、python分析常用的模块：numpy, pandas, matplotlib, scipy

32、mapjoin解决数据倾斜

使用场景：语句中B表有30亿行记录，A表只有100行记录，而且B表中数据倾斜特别严重，有一个key上有15亿行记录，在运行过程中特别的慢，而且在reduece的过程中遇有内存不够而报错。

SELECT /*+ MAPJOIN(b) */ a.key,  a.value  FROM a join b on a.key = b.key

33、LEFT SEMI JOIN 是IN/EXISTS 子查询的一种更高效的实现

1）通过left outer join 实现in 查询

select a.key, a.value from a left outer join b on a.key=b.keywhere b.keyis not null

2）通过left semi join 实现in

SELECT a.key, a.value FROM a LEFT SEMI JOIN b on (a.key= b.key)

注：限制条件只能在ON 子句中设置过滤条件，在WHERE子句、SELECT 子句或其他地方过滤都不行。

Left semi join 与JOIN 的区别：B表有重复值的情况下left semi join 产生一条，join 会产生多条。

34、hive explode函数

——行转列

35、Hive表还有一个TBLPROPERTIES用来给表添加一些描述信息，比如最后一次修改信息，最后一个修改人。

如：TBLPROPERTIES (‘creator‘=‘zhoumei‘, ‘created_at‘=‘2012-01-02 10:00:00‘)

Hive学习笔记：基础语法

标签：

原文地址：http://www.cnblogs.com/hunttown/p/5452464.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行