码迷,mamicode.com
首页 > 其他好文 > 详细

Hadoop合并小文件的几种方法

时间:2017-07-13 10:27:51      阅读:173      评论:0      收藏:0      [点我收藏+]

标签:行存储   代码实现   seq   tle   orm   文件的   修改   并且   通过   

1、Hadoop HAR

将众多小文件打包成一个大文件进行存储,并且打包后原来的文件仍然可以通过Map-Reduce进行操作,打包后的文件由索引和存储两大部分组成;

缺点: 一旦创建就不能修改,也不支持追加操作,还不支持文档压缩,当有新文件进来以后,需要重新打包。

 

2、SequeuesFile 

适用于非文体格式,可作小文件容器,并可压缩;

 

3、CombineFileInputFormat

将多个文件合并成一个split作为输入,减少map输入与HDFS块的耦合;

 

4、Java代码实现,使用HDFS API;更灵活可控;

Hadoop合并小文件的几种方法

标签:行存储   代码实现   seq   tle   orm   文件的   修改   并且   通过   

原文地址:http://www.cnblogs.com/mzzcy/p/7158565.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!