hadoop的分布式安装过程 分布结构 主节点(1个,是huanghe):NameNode、JobTracker、SecondaryNameNode 从节点(2个,是huanghe1、huanghe2):DataNode、TaskTracker 我的配置:用户名/密码均为:root/huanghe ...
分类:
其他好文 时间:
2014-08-18 01:31:33
阅读次数:
233
上一节分析到了JobTracker把任务从队列里取出来并进行了初始化,所谓的初始化,主要是获取了Map、Reduce任务的数量,并统计了哪些DataNode所在的服务器可以处理哪些Split等等,将这些信息缓存起来,但还没有进行实质的分配。等待TaskTracker跟自己通信。TaskTracker...
分类:
其他好文 时间:
2014-08-18 00:03:43
阅读次数:
253
上一节以WordCount分析了MapReduce的基本执行流程,但并没有从框架上进行分析,这一部分工作在后续慢慢补充。这一节,先剖析一下任务提交过程。MapReduce集群包含一个JobTracker和多个TaskTracker,这里先不考虑YARN,仍然依据1版本进行分析。一个MapReduce...
分类:
其他好文 时间:
2014-08-17 02:20:01
阅读次数:
320
实施Hadoop集群--分布式安装Hadoop 说明:以Ubuntu配置为例,其中与CentOS不同之处会给出详细说明 现有三台服务器:其IP与主机名对应关系为:192.168.139.129 master #NameNode/JobTrackerr结点
192.168.139.132 slave01 #DataNode/TaskTracker结点
192.168.139.137 slave...
分类:
其他好文 时间:
2014-08-12 17:28:24
阅读次数:
297
Hadoop1.x和Hadoop2.0构成图对比Hadoop1.x构成: HDFS、MapReduce(资源管理和任务调度);运行时环境为JobTracker和TaskTracker;Hadoop2.0构成:HDFS、MapReduce/其他计算框架、YARN; 运行时环境为YARN 1、HDFS....
分类:
其他好文 时间:
2014-08-02 15:24:53
阅读次数:
403
1. mapper任务一般执行 输入格式解析、投影(选择相关的字段)、过滤(过滤掉无关记录)。reducer任务一般2. 对于map任务和ruduce任务,tasktracker有固定数量的任务槽。3. 分片(split)的大小一般就是文件块大小。map任务的数量取决于文件大小和块大小,不用刻意去设...
分类:
其他好文 时间:
2014-07-22 22:54:16
阅读次数:
314
namenode(hdfs)+jobtracker(mapreduce)可以放在一台机器上,datanode+tasktracker可以在一台机器上,辅助namenode要单独放一台机器,jobtracker通常情况下分区跟datanode一样(目录最好分布在不同的磁盘上,一...
分类:
其他好文 时间:
2014-07-21 10:21:00
阅读次数:
327
配置建议: 1. ????In MR1, the mapred.tasktracker.map.tasks.maximum and mapred.tasktracker.reduce.tasks.maximum properties dictated how many map and reduce slots each TaskTracker had. ????T...
分类:
其他好文 时间:
2014-07-21 10:14:00
阅读次数:
279
经过一段时间的配置,Hadoop环境总算运行起来了,但是呢,为何主节点就没有跑tasktracker和datanode进程,slave节点也没有跑secondary进程,Hadoop是如何控制的呢?经过看权威指南(267页)和跟群里同学讨论,还有自己测试,最终确定:tasktracker和datan...
分类:
其他好文 时间:
2014-07-19 20:19:01
阅读次数:
239
MRv1
Storm
JobTracker
Nimbus
TaskTracker
Supervisor
Child
Worker
Job
Topology
Map/Reduce
Spout/Blot
shuffle
Stream grouping...
分类:
其他好文 时间:
2014-06-16 21:24:47
阅读次数:
228