标签:style io color os ar java for sp 文件
对于上一篇hadoop mapreduce 多文件输出,有一些地方介绍的不准确,这里做个续简单更正一下,同时正好解决了上一篇的不能多文件夹输出的问题
1、针对于上一篇代码中的 MultipleOutputs.addNamedOutput(job, "errorlog",
TextOutputFormat.class, Text.class, NullWritable.class); 方法,其实第二个参数并非是这么用的,下面看代码:
private MultipleOutputs<NullWritable, Text> multipleOutputs = null; @Override protected void reduce(IntWritable key, Iterable<Text> values,Context context) throws IOException, InterruptedException { for(Text val:values){ multipleOutputs.write("KeySplit", NullWritable.get(), val, key.toString()+"/"); multipleOutputs.write("AllData", NullWritable.get(), val); } }
write函数很多重载方法,之前用的是三个参数的,这个方法其实是将所有的reduce输出都输出到一个文件夹中,
这时候我们在调用MultipleOutputs.addNamedOutput()函数的时候传递的第二个参数为多个,所以会导致
-rw-r--r-- 2 hadoop supergroup 10569073 2014-06-06 11:50 /test/aa/fileRequest-m-00063.lzo
-rw-r--r-- 2 hadoop supergroup 10512656 2014-06-06 11:50 /test/aa/fileRequest-m-00064.lzo
-rw-r--r-- 2 hadoop supergroup 68780 2014-06-06 11:51 /test/aa/firstIntoTime-m-00000.lzo
-rw-r--r-- 2 hadoop supergroup 67901 2014-06-06 11:51 /test/aa/firstIntoTime-m-00001.lzo
这样的现象,而且会多输出很多没有用的空文件
那么其实write方法有一个带有四个参数的方法,最后一个参数就恰巧是传递一个目录进去,目的是针对于不同的逻辑将reduce产生的数据输出到不同的文件夹目录下。如第一段代码中的multipleOutputs.write("KeySplit", NullWritable.get(), val, key.toString()+"/");语句,最后一个参数的作用就是相将key作为文件夹,将具有相同key 的数据输出到这个文件夹中,后面跟着一个“/” 代表是当前目录下,当前目录指的肯定不是项目的当前目录,他是在执行hadoop jar 时传递的输出目录的参数,如:hadoop jar test.jar com.TestJob /input /output
假设数据是这样的:
1 丽梅
1 小辉
2 小红
3 大华
那么将输出三个文件夹分别为
/output/1
/output/2
/output/3
其中/output/1这个文件夹中一个文件,内容为
1 丽梅
1 小辉
write函数还有其他方法,暂时还没有研究,而且针对于write方法的第一个函数也没有去研究,如果有时间,会把多文件输出详细总结一下
注:在配置job的时候
这句代码
MultipleOutputs.addNamedOutput(job, "errorlog", TextOutputFormat.class, Text.class, NullWritable.class);
标签:style io color os ar java for sp 文件
原文地址:http://my.oschina.net/u/1378204/blog/339363