Mapreduce简介

时间：2020-03-06 11:21:35 阅读：60 评论：0 收藏：0 [点我收藏+]

简单地说，MapReduce就是"任务的分解与结果的汇总"。

MapReduce 是一个分布式运算程序的编程框架，是用户开发“基于 hadoop 的数据分析应用”的核心框架。MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。

在分布式计算中，MapReduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题，把处理过程高度抽象为两个函数：map和reduce，map负责把任务分解成多个任务，reduce负责把分解后多任务处理的结果汇总起来。

为什么需要 MapReduce？

◆ 海量数据在单机上处理因为硬件资源限制，无法胜任。
?◆ 而一旦将单机版程序扩展到集群来分布式运行，将极大增加程序的复杂度和开发难度。
?◆引入 MapReduce 框架后，开发人员可以将绝大部分工作集中在业务逻辑的开发上，而将分布式计算中的复杂性交由框架来处理。

MapReduce核心机制

技术图片

MapReduce核心就是map+shuffle+reducer，首先通过读取文件，进行分片，通过map获取文件的key-value映射关系，用作reducer的输入，在作为reducer输入之前，要先对map的key进行一个shuffle，也就是排个序，然后将排完序的key-value作为reducer的输入进行reduce操作，当然一个MapReduce任务可以不要有reduce，只用一个map。

更多MapReduce的文章阅读：《MapReduce设计及工作原理分析》

Mapreduce简介

标签：设计过程程序 get 通信操作数据读取文件文件

原文地址：https://www.cnblogs.com/chentianwei/p/12424875.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行