码迷,mamicode.com
首页 >  
搜索关键字:fileinputformat    ( 52个结果
在Hadoop中重写FileInputFormat类以处理二进制格式存储的整数
最近开始使用MapReduce,发现网上大部分例子都是对文本数据进行处理的,也就是说在读取输入数据时直接使用默认的TextInputFormat进行处理即可。对于文本数据处理,这个类还是能满足一部分应用场景。但是如果要处理以二进制形式结构化记录存储的文件时,这些类就不再适合了。 本文以一个简单的应用场景为例:对按照二进制格式存储的整数做频数统计。以此来说明如何重写FileInputFormat来实现对非文本数据的处理。...
分类:其他好文   时间:2014-06-04 21:53:46    阅读次数:341
使用hadoop multipleOutputs对输出结果进行不一样的组织
MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中,框架自己会自动对输出文件进行命名和组织,如:part-(m|r)-00000之类。但有时为了后续流程的方便,我们常需要对输出结果进行一定的分类和组织。...
分类:其他好文   时间:2014-05-04 10:22:15    阅读次数:341
52条   上一页 1 ... 4 5 6
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!