码迷,mamicode.com
首页 > 其他好文 > 详细

Hadoop Streaming开发要点

时间:2017-09-03 14:15:05      阅读:174      评论:0      收藏:0      [点我收藏+]

标签:color   com   streaming   权限   注意   python   capacity   out   输出   

一.shell脚本中的相关配置

 1 HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"
 2 STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"
 3 
 4 INPUT_FILE_PATH="/input.txt"
 5 OUTPUT_PATH="/output"
 6 
 7 $HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH
 8 
 9 $HADOOP_CMD jar $STREAM_JAR_PATH 
10       -input  $INPUT_FILE_PATH  11       -output  $OUTPUT_PATH  \ 
12       -mapper  "python map.py"  \ 
13       -reducer  "python red.py"  14       -file  map.py  15       -file  red.py  16       -jobfonf  mapred.job.name="xxx"    

-input : 指定作业的输入文件的HDFS路径, 支持使用*通配符, 支持指定多个文件或目录, 可多次使用

-output : 指定作业的输出文件的HDFS路径, 输出目录不能存在, 执行作业的用户必须有创建该目录的权限, 只能使用一次

-mapper : 自己写的map程序

-reducer : 自己写的reduce程序

-file : 分发文件到计算节点中, 包括map和reduce的执行文件, 以及map和reduce要用的输入文件, 如配置文件. 类似的配置还有-cacheFile,-cacheArchive分别用于向计算节点分发HDFS文件和HDFS压缩文件.(注意: 当输入文件比较大的时候需要先放到HDFS中, 不能用-file分发方式)

-jobconf : 提交作业的一些配置属性.

  常见配置:

  (1)mapred.map.tasks : map task数目

  (2)mapred.reduce.tasks : reduce task数目

  (3)stream.num.map.output.key.fileds : 指定map task输出记录中key所占的域数目(也就是用几个字段做为key)

  (4)num.key.fields.for.partition : 指定对key分出来的前几个部分做partition而不是整个key

  其它配置:

  mapred.job.name                        作业名

  mapred.job.priority                   作业优先级

  mapred.job.map.capacity           最多同时运行map任务数

  mapred.job.reduce.capacity          最多同时运行reduce任务数

  mapred.task.timeout                     任务没有响应(输入输出)的最大时间

  mapred.compress.map.output           map的输出是否压缩

  mapred.map.output.compression.codec      map的输出压缩方式

  mapred.out.compress                                  reduce的输出是否压缩

  mapred.output.compression.codec            reduce的输出压缩方式

  stream.map.output.field.separator        map输出分隔符

 

Hadoop Streaming开发要点

标签:color   com   streaming   权限   注意   python   capacity   out   输出   

原文地址:http://www.cnblogs.com/CoolJayson/p/7469392.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!