码迷,mamicode.com
首页 > 其他好文 > 详细

初识Hadoop

时间:2017-12-23 19:08:04      阅读:159      评论:0      收藏:0      [点我收藏+]

标签:alt   修改   class   div   ado   进度   作业调度   http   并行执行   

 1,Hadoop的组成
两个核心组成
HDFS: 分布式文件系统,存储海量的数据
MapReduce: 并行处理框架,实现任务分解和调度

2,HDFS
HDFS中的文件被分成块进行存储,默认的块大小为64MB, 块是文件存储处理的逻辑单元
HDFS中有两类节点 NameNode和DataNode

2.1,NameNode是管理节点,存放文件元数据
文件与数据块的映射表
数据块与数据节点的映射表

2.2,DataNode是HDFS的工作节点,存放数据块

技术分享图片


2.3,HDFS中的数据管理与容错
每个数据块3个副本,分布在两个机架内的三个节点
DataNode定期向NameNode发送心跳消息

技术分享图片

二级NameNode定期同步元数据映像文件和修改日志,当NameNode发生故障时,备胎转正

技术分享图片

HDFS读取文件的流程

技术分享图片

HDFS写入文件的流程

技术分享图片

 

 3,MapReduce原理
分而治之,一个大任务分成多个小的子任务(map) 并行执行后,合并结果(reduce)

技术分享图片

 

3.1,MapReduce中的基本概念
JobTracker的角色
作业调度
分配任务,监控任务执行进度
监控TaskTracker的状态
TaskTracker的角色
执行任务
汇报任务状态

技术分享图片

技术分享图片

 

 3.2,MapReduce的容错机制
重复执行(最多重复4次)
推测执行

 

初识Hadoop

标签:alt   修改   class   div   ado   进度   作业调度   http   并行执行   

原文地址:http://www.cnblogs.com/wjf0/p/8093811.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!