Hadoop技术内幕HDFS-笔记4之压缩

时间：2014-07-01 12:13:27 阅读：222 评论：0 收藏：0 [点我收藏+]

标签：blog http java 使用文件数据

1.1. 压缩

减少存储空间，加快传输速率

在hadoop中，压缩应用于文件存储、Map端到Reduce端的数据交换等情景。

hadoop，主要考虑压缩速率和压缩文件的可分割性

压缩算法：时间和空间的权衡

更快的压缩和解压缩效率通常压缩比较低。

bubuko.com,布布扣

hadoop提供了对压缩算法的编码和解码器类

bubuko.com,布布扣

编码和解码示例（采用gzip）

package test;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.OutputStream;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.CompressionCodecFactory;
import org.apache.hadoop.io.compress.CompressionOutputStream;
import org.apache.hadoop.util.ReflectionUtils;

public class CompressDemo {
	
	public static void main(String[] args) throws Exception {
		//compress("org.apache.hadoop.io.compress.GzipCodec");
		//GzipCodec
		decompress("readme.gz");
	}
	public static void compress(String className) throws Exception{
		File filein = new File("readme.txt");
		//输入流
		InputStream in = new FileInputStream(filein);
		
		Class codecClass = Class.forName(className);
		Configuration conf = new Configuration();
		//编码器实例
		CompressionCodec codec = (CompressionCodec) ReflectionUtils.newInstance(codecClass, conf);
		//输出流，若存在，先删除
		File fileout = new File("readme"+codec.getDefaultExtension());
		fileout.delete();
		OutputStream out = new FileOutputStream(fileout);
		//编码器包装输出流，成为编码输出流
		CompressionOutputStream codecOut = codec.createOutputStream(out);
		//编码输出
		IOUtils.copyBytes(in, codecOut, 1024, true);
	}
	public static void decompress(String fileName) throws Exception{
		Configuration conf = new Configuration();
		CompressionCodecFactory fact = new CompressionCodecFactory(conf);
		//得到一个编解码器
		CompressionCodec codec = fact.getCodec(new Path(fileName));
		if(codec == null){
			System.out.println("Cannot find the codec for file "+fileName);
			return;
		}
		//输入流
		InputStream in = codec.createInputStream(new FileInputStream(new File(fileName)));
		//输出到控制台
		IOUtils.copyBytes(in, System.out, conf);
	}
}