table1的数据是 客户id,基金差额,保险差额,理财差额,。。。 select 客户id “基金” as prod_name, jijin_add as 差额from table1 union allselect 客户id “保险” as prod_name, baoxian_add as 差额 ...
分类:
其他好文 时间:
2020-12-22 11:49:51
阅读次数:
0
Hive是大数据领域常用的组件之一,主要用于大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要因素有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等。本文主要从建表配置参数方面对Hive优化进行讲解
分类:
其他好文 时间:
2020-09-04 16:58:58
阅读次数:
42
今日内容:1) hive的自定义函数 (简单会实现即可)2) hive优化部分: 能够理解, 知道有这些优化方案 , 记录 2.1: hive的数据压缩 2.2: hive的数据存储格式 2.3: fetch抓取 2.4: 本地模式 2.5: join的优化 2.6: SQL优化的方案 2.7: 动 ...
分类:
其他好文 时间:
2020-08-10 09:24:13
阅读次数:
57
1. 概述 1.1 hive的特征: 可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析; 它可以使已经存储的数据结构化; 可以直接访问存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件; Hive除了支持MapRe ...
分类:
其他好文 时间:
2020-04-19 19:49:32
阅读次数:
86
整体架构优化点: 根据不同业务需求进行日期分区, 并执行类型动态分区。 hive.exec.dynamic.partition=true 为了减少磁盘存储空间以及I/O次数, 对数据进行压缩(Gzip) mapreduce.output.fileoutputformat.compress=true ...
分类:
其他好文 时间:
2020-03-29 19:55:40
阅读次数:
105
1、MapJoin 如果不指定 MapJoin 或者不符合 MapJoin 的条件,那么 Hive 解析器会将 Join 操作转换成 Common Join,即:在 Reduce 阶段完成 join。容易发生数据倾斜。可以用 MapJoin 把小表全部加载到内存在 map 端进行 join,避免 r ...
分类:
其他好文 时间:
2020-02-22 21:29:41
阅读次数:
63
hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limi ...
分类:
其他好文 时间:
2019-12-17 13:29:41
阅读次数:
64
Hive的优化策略大致分为:配置优化(hive-site.xml和hive-cli执行前配置)、表优化、hive数据倾斜解决方案。 回答的时候需要,需要准确的说出具体的配置参数,准确的说出具体的配置参数,这是一个深刻的教训。 配置优化 1-Fetch抓取配置 Fetch抓取是指,Hive中对某些情况 ...
分类:
其他好文 时间:
2019-12-14 15:44:09
阅读次数:
109
Hive理论1、Hive是什么?一个sql解析引擎,将SQL解析成MR,Hive本质就是MR2、Hive不存数据的,数据实际存在HDFS上,元数据基本上都存在mysql上3、Hive内容是读多写少,不支持数据的改写和删除4、Hive的SQL和传统SQL区别: 可扩展性:用户自定义函数 1)UDF:用 ...
分类:
其他好文 时间:
2019-09-15 17:10:25
阅读次数:
110
Hive的hql注意事项 1、使用分区裁剪,列裁剪 在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在Where后面,那么就会先全表关联,之后再过滤, SELECT a.id FROM lxw1234_a a left outer joint_lxw1234_partitioned b ON ( ...
分类:
其他好文 时间:
2019-06-11 19:38:45
阅读次数:
136