我们知道,一个典型的Map-Reduce过程包 括:Input->Map->Patition->Reduce->Output。Pation负责把Map任务输出的中间结果 按key分发给不同的Reduce任务进行处理。Hadoop 提供了一个非常实用的partitioner类KeyFieldBasedPartitioner,通过配置相应的参数就可以使用。通过 KeyFieldBasedPartitioner可以方便地实现二次排序。
使用方法:
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner
一般配合:
-D map.output.key.field.separator及-D num.key.fields.for.partition使用。
map.output.key.field.separator指定key内部的分隔符
num.key.fields.for.partition指定对key分出来的前几部分做partition而不是整个key
示例:
1. 编写map程序mapper.sh;reduce程序reducer.sh; 测试数据test.txt
mapper.sh:
#!/bin/sh cat
reducer.sh:
#!/bin/sh sort
test.txt内容:
1,2,1,1,1
1,2,2,1,1
1,3,1,1,1
1,3,2,1,1
1,3,3,1,1
1,2,3,1,1
1,3,1,1,1
1,3,2,1,1
1,3,3,1,1
2. 测试数据test.txt放入hdfs,运行map-reduce程序
$ hadoop streaming /
-D stream.map.output.field.separator=, /
-D stream.num.map.output.key.fields=4 /
-D map.output.key.field.separator=, /
-D num.key.fields.for.partition=2 /
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner /
-input /app/test/test.txt /
-output /app/test/test_result /
-mapper ./mapper.sh /
-reducer ./reducer.sh /
-file mapper.sh /
-file reducer.sh /
-jobconf mapre.job.name="sep_test"
$ hadoop fs –cat /app/test/test_result/part-00003
1,2,1,1 1
1,2,2,1 1
1,2,3,1 1
$ hadoop fs –cat /app/test/test_result/part-00004
1,3,1,1 1
1,3,1,1 1
1,3,2,1 1
1,3,2,1 1
1,3,3,1 1
1,3,3,1 1
通过这种方式,就做到前4个字段是key,但是通过前两个字段进行partition的目的
Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner//指定要求二次排序 -jobconf map.output.key.field.separator=‘&‘ //这里如果不加两个单引号的话我的命令会死掉 -jobconf num.key.fields.for.partition=1 //这里指第一个 & 符号来分割,保证不会出错 这样我们就可以通过 partitioner 来实现二次排序了 在reducer里面,我们再把"标签"摘掉(不费吹灰之力)就可以做到悄无声息的完成二次排序了。 3: 关于模块化 (强调 : 没有在集群上测试,只在单机上做测试) 程序员最悲剧的就是不能代码复用,做这个也一样,用hadoop-streaming 也一样,要做到代码重用,是我第一个考虑的问题 当我看到 -file(详细可以看官方网站上的讲解) 的时候,我就想到利用这个东西,果然,我的在本机上建立了一个py模块,简单的一个函数 然后在我的mapper里面import 它,本地测试通过后,利用-file 把模块所在的问价夹用 -file moudle/* 这个参数,传入streaming 执行的结果毫无错误,这样,我们就可以抽象出来一些模块的东西,来实现我们模块化的需求 注 : 不要忘记 chmod +x *.py 将py 变成可执行的,不然不可以运行 代码 : 1: 模块代码 mg.py 用来给 mapper 贴标签
2: mapper.py
python 实现Hadoop的partitioner和二次排序,布布扣,bubuko.com
python 实现Hadoop的partitioner和二次排序
原文地址:http://blog.csdn.net/whaoxysh/article/details/25482753