hive总结

时间：2020-06-21 13:51:48 阅读：57 评论：0 收藏：0 [点我收藏+]

标签：分析函数系统 data 工作窗口能力自定义函数情况分发

1，hive架构

　　1）client，客户端

　　2）Driver：驱动器

　　3）解析器，编译器，优化器，执行器

　　4）底层默认使用mr作为数据处理引擎

　　5）元数据，通常配置mysql来存储，这样支持多个客户端的访问

2，hive和传统数据库的比较

　　相同之处：都拥有类似的查询语言

　　不同之处：

　　　　1）数据存储位置不同

　　　　　　hive数据存储在hdfs上，而数据库的数据存储在块设备或本地文件系统中

　　　　2）数据更新

　　　　　　hive不建议对数据改写。而数据库通常是需要对数据进行更新操作的。

　　　　3）执行延迟

　　　　　　hive的执行延迟较高，而数据库的执行比较快，但是是基于数据量不大的基础上，当数据量过大，数据库的处理能力会骤降，而此时hive的分布式处理的优势就得到了体现。

　　　　4）数据规模

　　　　　　hive可支持大规模的数据计算，而数据支持的数据规模较小。

3，hive的内部表和外部表

　　内部表，删除时，会把元数据和数据一起删除，不适合和其它工具共享数据。

　　外部表，删除时，只会删除元数据，而不会删除掉数据。

4，4个by的区别

　　sort by ：分区内排序。

　　order by ：全局有序，最后只有一个reducer。

　　distrbute by ：类似于mr中的分区，根据指定的属性分区，结合sort by 使用，在指定的数据分区中排序。

　　cluser by ：当distrbute by 和 sort by 字段一致时，就可以使用 cluster by方式。但是排序只能是升序。

5，窗口函数

　　RANK() 排序相同时会重复，总数不会变

　　DENSE_RANK() 排序相同时会重复，总数会减少

　　ROW_NUMBER() 会根据顺序计算

　　1）OVER()：指定分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变而变化

　　2）CURRENT ROW：当前行

　　3）n PRECEDING：往前 n 行数据

　　4） n FOLLOWING：往后 n 行数据

　　5 ） UNBOUNDED ：起点， UNBOUNDED PRECEDING 表示从前面的起点，UNBOUNDED FOLLOWING 表示到后面的终点

　　6） LAG(col,n)：往前第 n 行数据

　　7）LEAD(col,n)：往后第 n 行数据

　　8） NTILE(n)：把有序分区中的行分发到指定数据的组中，各个组有编号，编号从 1 开始，对于每一行，NTILE 返回此行所属的组的编号。注意：n 必须为 int 类型。

6，自定义UDF、UDTF

　　UDF:

　　　继承UDF，重写evaluate 方法

　　UDTF:

　　　继承GenericUDTF,实现3个方法，initialize方法（定义输出的列名和类型），process方法（执行逻辑，返回结果），close方法

　　有时候即使hive自带的函数可以满足我们的需求，但是也需要自定义函数，是为了我们的可以方便的添加日志，方便后续的异常处理。

7，hive优化

　　1）MapJoin

　　　　能使用mapJoin，就不要使用common join，把小表全部加载到内存中，在map端进行join，避免了reducer处理。

　　2，行列过滤

　　　　列处理：不要使用select * ，而需要什么列就只拿什么列

　　　　行处理：不要在join之后才在where中写副表的过滤条件。这样会先做全表关联，才过滤。

　　3，分区技术

　　4，分桶技术

　　5，合理设置map数

　　　　map数不是越多越好，通常情况下，map数由文件个数，文件大小，块大小决定，如果小文件个数太多，则默认会启动过多的map任务，此时需要减少map数，可以使用CombinaHiveImputFormat

　　　　有时候，一个文件小于128M，可能存在几千万条记录，如果map的逻辑处理比较复杂，则用一个map处理，就比较耗时，此时可以考虑增加map数。

　　6，合理设置reduce数

　　　　过多的启动reduce会消耗时间和资源

　　　　一个reduce会产生一个输出文件，如果reduce过多，会产生很多小文件，对于下级的任务来说，就会出现过多小文件的问题。

　　　　当我们在设置reduce个数时，要考虑以上2个问题，设置合理的reduce数量

　　7，常用参数设置

　　　　set hive.merge.mapfiles = true 当只有map任务时，map任务输出的文件合并小文件

　　　　set hive.merge.mapredfiles = true 在map-reduce任务结束后合并小文件

　　8，开启map端的conbiner ，前提是不影响最终结果

　　9，压缩，在map输出端，选择速度块的压缩方式，snappy压缩，这样可以减少io

8，hive数据倾斜的解决办法

　　1）group by

　　　　纬度过小时，某值数量过多，处理某值的reduce非常耗时，使用sum() group by 来替换count（distinct）

　　2）mapJoin

　　3）不同数据类型关联产生的数据倾斜，在关联时把类型统一

　　4）开启数据倾斜时负载均衡

　　　　set hive.groupby.skewindata = true

　　　　就是采用2阶段的mapreduce，第一阶段的mr，给key加入随机前缀，把数据均匀分配到reduce中，在第二阶段的mr把随机前缀去除，在聚合。

　　5，控制控制分布

hive总结

标签：分析函数系统 data 工作窗口能力自定义函数情况分发

原文地址：https://www.cnblogs.com/gaoshanmuxue/p/13172054.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行