码迷,mamicode.com
首页 > 其他好文 > 详细

Hive优化策略介绍

时间:2014-07-17 13:13:40      阅读:266      评论:0      收藏:0      [点我收藏+]

标签:style   color   使用   strong   数据   io   

作为企业Hadoop应用的核心产品之一,Hive承载着公司95%以上的离线统计,甚至很多企业里的离线统计全由Hive完成;

 

Hive在企业云计算平台发挥的作用和影响越来越大,如何优化提速已经显得至关重要;

Hive作业的规模决定着优化层级,一个Hive作业的优化和一万个Hive作业的优化截然不同

 

后续文章将从如下三个方面进行hive的优化介绍:

1)  架构方面(高效、全局、局部)----最有效的优化,好的架构能让作业性能提高很多

  a)  分表;(日志表量大而且作业访问次数多,造成耗时较长;将用的比较少的数据剥离出来)

  b)  合理利用中间结果集

     i.   重视查过就丢的资源浪费;特别是大数据量的表,如果查完就丢,IO开销会很大;随着作业越来越多,造成hadoop的IO负载瓶颈;

    ii.   梳理作业之间的“血缘”关系,把他们之间使用相同的中间结果抽取出来。

  c)  常用复杂/低效统一给出,以避免上层多个作业每次需要的时候再去计算,提高上层多个作业的计算效率;

  d)  设计表分区:静态/动态分区,静态分区用的比较多;

2)  HQL语法层面(中低效、Job内)

  通过执行计划分析

3)  Hive参数层面(全局)

  太暴力,很少用;但有时会起到很好的效果;

Hive优化策略介绍,布布扣,bubuko.com

Hive优化策略介绍

标签:style   color   使用   strong   数据   io   

原文地址:http://www.cnblogs.com/luogankun/p/3850289.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!