Hadoop 数据压缩

时间：2016-01-31 21:29:35 阅读：320 评论：0 收藏：0 [点我收藏+]

标签：

文件压缩主要有两个好处，一是减少了存储文件所占空间，另一个就是为数据传输提速。在hadoop大数据的背景下，这两点尤为重要，那么我现在就先来了解一下hadoop的文件压缩。

Hadoop里支持很多种压缩格式，看下表：

技术分享

DEFLATE是同时使用了LZ77算法与哈弗曼编码(Huffman Coding)的一个无损数据压缩算法，源代码可以在zlib库中找到。gzip是以DEFLATE算法为基础扩展出来的一种算法。

所有的压缩算法都是空间和时间的转换，更快压缩时间还是更小压缩比，可以通过参数来指定，-1意味着速度，-9意味着空间。拿gzip做个例子，下面就意味着更快速的压缩：

[html] view plain copy

gzip -1 file

gzip在时间和空间上的取舍比较折中，bzip2压缩比gzip更有效，但是速度更慢。bzip2的解压速度快于压缩速度。但是和其他压缩格式比又是最慢的，但是压缩效果明显是最好的。snappy和lz4的解压速度比lzo好很多。

下图是一些解压缩算法效率的比较：

splitable表示压缩格式是否可以被分割，也就是说是否支持随即读。压缩数据是否能被MapReduce使用，压缩数据是否能被分割就很关键了。

举个例子：一个未被压缩的文件有1GB大小，HDFS默认的block大小是64MB，那么这个文件就会被分为16个block作为MapReduce的输入，每一个单独使用一个map任务。如果这个文件是已经使用gzip压缩的呢？如果分成16个块，每一个块做成一个输入，显然是不适合的，因为gzip压缩流的随即读是不可能的。实际上，当MapReduce处理压缩格式的文件的时候它会认识到这是一个gzip的压缩文件，而gzip又不支持随即读，它就会把16块分给一个map去处理，这里就会有很多非本地处理的map任务，整个过程耗费的时间就会相当长。

lzo压缩格式也有同样的问题，但是通过使用hadoop lzo库的索引工具以后，lzo就可以支持splitable。bzip2也是支持splitable。

那么应该如何选择压缩格式呢？这取决于文件的大小，你使用的压缩工具，下面是几条选择的建议，效率由高到低：

1.用一些包含了压缩并且支持splitable的文件格式，比如sequence File，RCFile或者Avro文件，这些文件格式我们之后都会讲到。如果是为了快速压缩可以使用lzo，lz4或者snappy压缩格式。

2.使用提供splitable的压缩格式，比如，bzip2和索引后可以支持splitable的lzo。

3.提前把文件分成几个块，每个块单独压缩，这样就无需考虑splitable的问题了。

4.不要压缩文件。

注：以不支持splitable的压缩格式存储一个很大的数据文件是不合适的，非本地处理效率非常之低。

Hadoop 数据压缩

标签：

原文地址：http://www.cnblogs.com/thinkpad/p/5173715.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行