码迷,mamicode.com
首页 >  
搜索关键字:cdh hive 释放空间    ( 6666个结果
Hive 查询优化总结
一、join优化Join查找操作的基本原则:应该将条目少的表/子查询放在Join操作符的左边。原因是在Join操作的Reduce阶段,位于Join操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join,且所有参与join的...
分类:其他好文   时间:2014-07-22 22:56:14    阅读次数:238
Hive调优实战
Hive优化总结---by 食人花优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对j...
分类:其他好文   时间:2014-07-22 22:55:15    阅读次数:271
Hadoop的数据管理
Hadoop的数据管理,主要包括Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive的数据管理。
分类:其他好文   时间:2014-07-22 22:54:13    阅读次数:243
Hive一些参数设置
在使用union all的时候,系统资源足够的情况下,为了加快hive处理速度,可以设置如下参数实现并发执行set mapred.job.priority=VERY_HIGH;set hive.exec.parallel=true;设置map reduce个数-- 设置map capacityset...
分类:其他好文   时间:2014-07-19 21:37:25    阅读次数:264
Hive架构层面优化之一分表
场景:某个日志表数据量很大,而且访问该表的作业比较多,造成耗时比较长;解决方案:将用的比较少/不常用的字段剥离出去;案例:日志表trackinfo,每天约有2亿数据量,有5000个作业按天访问,每天的日志数据量有可能会继续添加下去,那么很可能就满足不了要求(每添加10%的数据量作业大概要添加20分钟...
分类:其他好文   时间:2014-07-18 20:35:32    阅读次数:192
Hive架构层面优化之二合理利用中间结果集(单Job)
是针对单个作业,针对本job再怎么优化也不会影响到其他job;Hadoop的负载主要有两部分:CPU负载和IO负载;问题:机器io开销很大,但是机器的cpu开销较小,另外map输出文件也较大,怎么办?解决办法:通过设置map的中间输出进行压缩就可以了,这个不会影响最终reduce的输出。集群中的机器...
分类:其他好文   时间:2014-07-18 20:29:09    阅读次数:384
Hive架构层面优化之五合理设计表分区(静态分区和动态分区)
合理建表分区有效提高查询速度。重要数据采用外部表存储,CREATE EXTERNAL TABLE,数据和表只是一个location的关联,drop表后数据不会丢失;内部表也叫托管表,drop表后数据丢失;所以重要数据的表不能采用内部表的方式存储。在全天的数据里查询某个时段的数据,性能很低效-----...
分类:其他好文   时间:2014-07-18 20:16:47    阅读次数:298
Hive优化策略介绍
作为企业Hadoop应用的核心产品之一,Hive承载着公司95%以上的离线统计,甚至很多企业里的离线统计全由Hive完成;Hive在企业云计算平台发挥的作用和影响越来越大,如何优化提速已经显得至关重要;Hive作业的规模决定着优化层级,一个Hive作业的优化和一万个Hive作业的优化截然不同;后续文...
分类:其他好文   时间:2014-07-17 13:13:40    阅读次数:266
Hive架构层面优化之四 常用复杂/低效的统计从源上给出,以避免上层作业过多计算
案例一:trackinfo,基础表处理常用的低性能UDF背景描述:日志信息10分钟加载一次到实时日志表trackreal中(按小时分区),为了保证实时性,在加载的过程中并没有做任何的过滤处理,加载到trackreal表后再过滤非法数据、爬虫数据等,生成按天增量日志表trackinfo,然后根据不同的...
分类:其他好文   时间:2014-07-17 13:09:44    阅读次数:226
sqoop导入数据时间日期类型错误
一个问题困扰了很久,用sqoop import从mysql数据库导入到HDFS中的时候一直报错,最后才发现是一个时间日期类型的非法值导致。hive只支持timestamp类型,而mysql中的日期类型是datetime, 当datetime的值为0000-00-00 00:00:00的时候,sqoop import无法将其转换成hive, 然后报错。解决方法是在hive中使用string字段类型。...
分类:其他好文   时间:2014-07-15 12:58:08    阅读次数:342
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!