hadoop随手笔记

时间：2015-08-21 13:02:06 阅读：137 评论：0 收藏：0 [点我收藏+]

标签：

1.Hadoop Streaming

是为了方便不太熟悉java用户编写MR程序的工具。用户可以将任何可执行文件（C++）或者脚本(python，ruby)作为Mapper/Reducer, 提高了效率。Hadoop Steaming 要求用户编写的Mapper/Reducer从【标准输入】中读取数据，并将结果写到【标准输出】中。这个有点类似于linux的管道机制。

2.ChainMapper/ChainReducer

同样类似于linux管道重定向机制，前一个map的输出直接作为下一个map的输入，形成一个流水线。设想这样一个场景：在Map阶段，数据经过mapper01和mapper02处理；在Reduce阶段，数据经过shuffle和sort后，交给对应的reducer处理，reduer处理后并没有直接写入到Hdfs,，而是交给了另一个mapper03处理，它产生的结果最终写到HDFS的输出目录中。但是要注意，对任一MR作业，Map和Reduce阶段可以有无限个mapper，但reduer只能有一个。

hadoop随手笔记

标签：

原文地址：http://www.cnblogs.com/skyl/p/4747292.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行