【转】MapReduce读取lzo文件

时间：2015-11-27 12:45:01 阅读：140 评论：0 收藏：0 [点我收藏+]

标签：

1.读lzo文件

需要添加以下代码，并导入lzo相关的jar包
job.setInputFormatClass(LzoTextInputFormat.class);

2.写lzo文件

lzo格式默认是不支持splitable的，需要为其添加索引文件，才能支持多个map并行对lzo文件进行处理

如果希望reduce输出的是lzo格式的文件，添加下面的语句
FileOutputFormat.setCompressOutput(job, true);
FileOutputFormat.setOutputCompressorClass(job, LzopCodec.class);
int result = job.waitForCompletion(true) ? 0 : 1;
//上面的语句执行完成后，会生成最后的输出文件，需要在此基础上添加lzo的索引
LzoIndexer lzoIndexer = new LzoIndexer(conf);
lzoIndexer.index(new Path(args[1]));

如果已经存在lzo文件，但没有添加索引，可以采用下面的方法，在输入路径的文件上上添加lzo索引

hadoop jar $HADOOP_HOME/lib/hadoop-lzo-0.4.17.jar com.hadoop.compression.lzo.LzoIndexer hdf://inputpath

或者

hadoop jar $HADOOP_HOME/lib/hadoop-lzo-0.4.17.jar com.hadoop.compression.lzo.DistributedLzoIndexe hdf://inputpath

【转自】http://blog.csdn.net/wisgood/article/details/17080361

【转】MapReduce读取lzo文件

标签：

原文地址：http://www.cnblogs.com/zhzhang/p/5000084.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行