hadoop-streaming 配置之---参数分割

时间：2015-01-08 13:19:22 阅读：223 评论：0 收藏：0 [点我收藏+]

标签：

map:
-D stream.map.output.field.separator=. 定义mapoutput字段的分隔符为.  用户可以自定义分隔符（除了默认的tab）
-D stream.num.map.output.key.fields=4  第四个.前面的是key，后面的是value。如果该行.的个数少于四个，则整行数据就是key，value是空。  
总结：就是划分map输出的key与value的。因为输出的都是文本行。都有个划分标志。
对应context.write(key, value)

reduce:（同上）
-D stream.reduce.output.field.separator=SEP
-D stream.num.reduce.output.fields=NUM


partitioner
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner
-D stream.map.output.field.separator=.
-D stream.num.map.output.key.fields=4
-D map.output.key.field.separator=.       字面的解释：map的输出key的field的separator=.   (对key再进行切分==二面）
#-D num.key.fields.for.partition=2        指定将key分割后的前两部分用做partition
-D mapred.text.key.partitioner.options=-k1,2    附注：-k1,2 指定对key进行划分后第1 2个域进行划分（上述解释没有找到相关文档，也不属于原文） 

example1
Output输出（keys） 因为  -D stream.num.map.output.key.fields=4 指定map的输出行前4个作为key，后面为value
11.12.1.2  
11.14.2.3  
11.11.4.1  
11.12.1.1  
11.14.2.2
划分到3个reducer（前面2个字段作为partition的keys）  
11.11.4.1  
-----------  
11.12.1.2  
11.12.1.1  
-----------  
11.14.2.3  
11.14.2.2  


Reducer的每个划分内排序（4个字段同时用于排序）   实现了partitioner不是用map的输出key做partition而是用key的某一部分，对应了java中的自定义partitioner
11.11.4.1  
-----------  
11.12.1.1  
11.12.1.2  
-----------  
11.14.2.2  
11.14.2.3 

example2
-D mapred.output.key.comparator.class=org.apache.hadoop.mapred.lib.KeyFieldBasedComparator
-D stream.map.output.field.separator=. 
-D stream.num.map.output.key.fields=4 
-D map.output.key.field.separator=.
-D mapred.text.key.comparator.options=-k2,2nr
-k2,2nr 中-k2,2指定key分割后的第2个域进行排序，n 指定使用数字排序，r指定排序结果最后要进行反转
Map输出（keys）  
11.12.1.2  
11.14.2.3  
11.11.4.1  
11.12.1.1  
11.14.2.2  
Reducer的输出（使用第二个字段进行排序）   
11.14.2.3  
11.14.2.2  
11.12.1.2  
11.12.1.1  
11.11.4.1

标签：

原文地址：http://www.cnblogs.com/i80386/p/4210518.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行