MapReduce （MRV1）设计理念与基本架构

时间：2017-01-24 18:52:25 阅读：629 评论：0 收藏：0 [点我收藏+]

标签：mapr margin 工作需要输出 track sort text partition

MapReduce 是一个分布式计算框架，主要由两部分组成：编程模型和运行时环境.

其中，编程模型为用户提供了非常易用的编程接口，用户只需要像编写串行程序一样实现几个简单的函数即可实现一个分布式程序，而其他比较复杂的工作，如节点间的通信、节点失效、数据切分等，全部由MapReduce 运行时环境完成，用户无须关心这些细节。

编程模型：

????它的基本编程模型是将问题抽象成Map 和Reduce 两个阶段。其中，Map 阶段将输入数据解析成key/value，迭代调用map() 函数处理后，再以key/value 的形式输出到本地目录；Reduce 阶段则将key 相同的value 进行规约处理，并将最终结果写到HDFS 上。

map() 函数以key/value 对作为输入，产生另外一系列key/value 对作为中间输出写入本地

磁盘。MapReduce 框架会自动将这些中间数据按照key 值进行聚集，且key 值相同（用户可

设定聚集策略，默认情况下是对key 值进行哈希取模）的数据被统一交给reduce() 函数处理。

reduce() 函数以key 及对应的value 列表作为输入，经合并key 相同的value 值后，产

生另外一系列key/value 对作为最终输出写入HDFS。

运行时环境：

????它的运行时环境由两类服务组成：JobTracker 和TaskTracker，其中，JobTracker 负责资源管理和所有作业的控制，而TaskTracker 负责接收来自JobTracker 的命令并执行它。

五个编程组件：

InputFormat、

Mapper、

Partitioner、

Reducer 、

OutputFormat

Block 与 split的关系：

技术分享

Map Task 执行过程：

Map Task 先将对应的split 迭代解析成一个个key/value 对，依次调用用户自定义的map() 函数进行处理，最终将临时结果存放到本地磁盘上，其中临时数据被分成若干个partition，每个partition 将被一个Reduce Task 处理。

技术分享
Reduce Task的执行过程：

该过程分为三个阶段①从远程节点上读取MapTask 中间结果（称为"Shuffle 阶段"）；②按照key 对key/value 对进行排序（称为"Sort 阶段"）；③依次读取<key, value list>，调用用户自定义的reduce() 函数处理，并将最终结果存到HDFS 上（称为"Reduce 阶段"）。