RPC(Remote Procedure Call Protocol)远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。Hadoop底层的交互都是通过 rpc进行的。例如:datanode和namenode 、tasktracker和jobtracker、...
分类:
其他好文 时间:
2015-10-14 12:33:58
阅读次数:
212
我们基于Hadoop 1.2.1源码分析MapReduce V1的处理流程。 MapReduce V1实现中,主要存在3个主要的分布式进程(角色):JobClient、JobTracker和TaskTracker,我们主要是以这三个角色的实际处理活动为主线,并结合源...
分类:
其他好文 时间:
2015-10-09 12:25:09
阅读次数:
260
大体,正确的做法是首选的配置文件,然后开始详细机对应的进程/停止操作。网上一些资料说在调整配置文件的时候,优先使用主机名而不是IP进行配置。总的来说加入/删除DataNode和TaskTracker的方法很相似,仅仅是操作的配置项和使用的命令有微小差异。1. DataNode1.0 配置文件在mas...
分类:
其他好文 时间:
2015-10-06 10:23:59
阅读次数:
162
一 概述:(1)Hadoop MapReduce采用Master/Slave结构。*Master:是整个集群的唯一的全局管理者,功能包括:作业管理、状态监控和任务调度等,即MapReduce中的JobTracker。*Slave:负责任务的执行和任务状态的回报,即MapReduce中的TaskTra...
分类:
其他好文 时间:
2015-09-28 15:53:28
阅读次数:
168
TaskTracker节点向JobTracker汇报当前节点的运行时信息时候,是将运行状态信息同心跳报告一起发送给JobTracker的,主要包括TaskTracker的基本信息、节点资源使用信息、各任务状态等。所以信息被序列化为TaskTrackerStatus实例对象。每次发送心跳报告的时候,....
分类:
其他好文 时间:
2015-09-22 17:55:07
阅读次数:
264
在TaskTracker中对象healthStatus保存了当前节点的健康状况,对应的类是org.apache.hadoop.mapred.TaskTrackerStatus.TaskTrackerHealthStatus。定义如下:static class TaskTrackerHealthS.....
分类:
其他好文 时间:
2015-09-21 19:33:38
阅读次数:
165
reduce的数目到底和哪些因素有关1、我们知道map的数量和文件数、文件大小、块大小、以及split大小有关,而reduce的数量跟哪些因素有关呢?设置mapred.tasktracker.reduce.tasks.maximum的大小可以决定单个tasktracker一次性启动reduce的数目...
分类:
其他好文 时间:
2015-08-28 21:18:34
阅读次数:
278
角色描述:JobClient:执行任务的客户端JobTracker:任务调度器TaskTracker:任务跟踪器Task:具体的任务(Map OR Reduce)从生命周期的角度来看,mapreduce流程大概经历这样几个阶段:初始化、分配、执行、反馈、成功与失败的后续处理每个阶段所做的事情大致如下...
分类:
其他好文 时间:
2015-08-28 13:12:19
阅读次数:
164
Storm的集群结构Storm与Hadoop的架构对比 主节点 工作节点 作业Storm Numbus Supervisor toplogies(拓扑),死循环Hadoop JobTracker TaskTracker MapReduce Job,执行完成立即结...
分类:
其他好文 时间:
2015-08-02 21:31:41
阅读次数:
539
Hadoop集群中分主节点master节点和slave节点,master节点监控slave节点。master和slave之间通过ssh协议进行通信。
master节点上部署有JobTracker和NameNode,当然也可以部署TaskTracker和DataNode。slave节点上部署TaskTracker和DataNode节点。JobTracker监控TaskTracker,...
分类:
其他好文 时间:
2015-07-31 01:26:56
阅读次数:
97