码迷,mamicode.com
首页 > 其他好文 > 详细

【转】MapReduce读取lzo文件

时间:2015-11-27 12:45:01      阅读:140      评论:0      收藏:0      [点我收藏+]

标签:

1.读lzo文件

需要添加以下代码,并导入lzo相关的jar包
 job.setInputFormatClass(LzoTextInputFormat.class);


2.写lzo文件

lzo格式默认是不支持splitable的,需要为其添加索引文件,才能支持多个map并行对lzo文件进行处理


如果希望reduce输出的是lzo格式的文件,添加下面的语句
        FileOutputFormat.setCompressOutput(job, true);
        FileOutputFormat.setOutputCompressorClass(job, LzopCodec.class);
        int result = job.waitForCompletion(true) ? 0 : 1;
        //上面的语句执行完成后,会生成最后的输出文件,需要在此基础上添加lzo的索引
        LzoIndexer lzoIndexer = new LzoIndexer(conf);
        lzoIndexer.index(new Path(args[1]));


如果已经存在lzo文件,但没有添加索引,可以采用下面的方法,在输入路径的文件上上添加lzo索引

hadoop jar $HADOOP_HOME/lib/hadoop-lzo-0.4.17.jar com.hadoop.compression.lzo.LzoIndexer hdf://inputpath

或者 

hadoop jar $HADOOP_HOME/lib/hadoop-lzo-0.4.17.jar  com.hadoop.compression.lzo.DistributedLzoIndexe hdf://inputpath

 

【转自】http://blog.csdn.net/wisgood/article/details/17080361

【转】MapReduce读取lzo文件

标签:

原文地址:http://www.cnblogs.com/zhzhang/p/5000084.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!