Hadoop之数据仓库Hive运行机制,常用操作,数据倾斜原因及优化详解2017-12-17 一、Hive是什么 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制 ...
分类:
其他好文 时间:
2017-12-17 16:52:35
阅读次数:
245
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义 ...
分类:
其他好文 时间:
2017-11-10 01:36:34
阅读次数:
168
Hive对于表的操作大部分都是转换为MR作业的形式,为了提高OLAP[online analysis process 在线分析处理]的效率,Hive自身给出了很多的优化策略 1. explain[解释执行计划] 通过explain命令,可以查看Hive语句的操作情况,是否为慢查询,是否走索引,一目了 ...
分类:
其他好文 时间:
2017-11-02 15:52:00
阅读次数:
229
参考: http://www.csdn.net/article/2015-01-13/2823530 http://www.cnblogs.com/smartloli/p/4288493.html http://www.cnblogs.com/smartloli/p/4356660.html htt ...
分类:
其他好文 时间:
2017-10-20 18:37:10
阅读次数:
120
摘要: 1.Hive安装 2.Hive DDL命令 3.Hive DML初步 4.Hive DML高级 5.Hive 优化与配置参数 ...
分类:
其他好文 时间:
2017-10-03 23:23:12
阅读次数:
282
一、表设计 合理分表 合理设计表分区,静态分区、动态分区 二、扫描相关 1、谓词下推(Predicate Push Down) 2、列裁剪(Column Pruning) 在读数据的时候,只关心感兴趣的列,而忽略其他列 对于查询:select a,b from src where e < 10 其中 ...
分类:
其他好文 时间:
2017-09-06 00:48:36
阅读次数:
266
一、map阶段优化 map端: spill(100M,80%)-->meger(压缩)参数:io.sort.mb(default100)当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。而是会利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buf ...
分类:
其他好文 时间:
2017-06-12 19:56:12
阅读次数:
300
、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义 ...
分类:
其他好文 时间:
2017-02-16 01:40:22
阅读次数:
217
近几年来全社会都在呼吁为中小学生减负,不过现在看来这条路还很漫长。该写的作业都还是要写,该温习、预习的功课还是跟之前一样每天都不能落下。一些教学任务繁重的地区和学校,孩子们回家以后在写字桌前面坐上个把小时是平常事。 其实孩子学习负担重说到底还是整个社会的问题,社会发展的阶段决定了社会教育的形式,都要 ...
分类:
其他好文 时间:
2016-12-26 16:24:55
阅读次数:
152
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。 理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜。 2.对jobs数比较多的作业运行效 ...
分类:
其他好文 时间:
2016-12-25 23:17:49
阅读次数:
235