码迷,mamicode.com
首页 > 其他好文 > 详细

Hive 合并输入输出文件

时间:2015-06-18 11:32:27      阅读:126      评论:0      收藏:0      [点我收藏+]

标签:hive

如果HIVE的输入文件是大量的小文件,而每个文件启动一个map的话是对yarn资源的浪费,同样的,Hive输出的文件也远远小于HDFS块大小,对后续处理也是不利的


HIVE中支持通过参数调整输入和输出的文件大小


1、合并输入文件

set mapred.max.split.size=256000000;  #每个Map最大输入大小
set mapred.min.split.size.per.node=100000000; #一个节点上split的至少的大小 
set mapred.min.split.size.per.rack=100000000; #一个交换机下split的至少的大小
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;  #执行Map前进行小文件合并


开启org.apache.hadoop.hive.ql.io.CombineHiveInputFormat后,一个data node节点上多个小文件会进行合并,合并文件数由mapred.max.split.size限制的大小决定
mapred.min.split.size.per.node决定了多个data node上的文件是否需要合并
mapred.min.split.size.per.rack决定了多个交换机上的文件是否需要合并

2、合并输出文件

set hive.merge.mapfiles = true #在Map-only的任务结束时合并小文件
set hive.merge.mapredfiles = true #在Map-Reduce的任务结束时合并小文件
set hive.merge.size.per.task = 256*1000*1000 #合并文件的大小
set hive.merge.smallfiles.avgsize=16000000 #当输出文件的平均大小小于该值时,启动一个独立的map-reduce任务进行文件merge

Hive 合并输入输出文件

标签:hive

原文地址:http://blog.csdn.net/opensure/article/details/46545445

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!