一、本文说明:
本次测试在五台虚拟机系统上进行完全分布式搭建。Hadoop分布式模式是在多台机器上分布式部署,配置非常类似于伪分布式,名称节点和数据节点都分布在不同的主机上,每台数据节点上都有相应的任务调度。
二、环境说明:
虚拟软件:VM10.0
操作系统:Cent Os 6.7
hadoop版本:hadoop-2.7.2
JDK版本:jdk1.8_77
备注:基于独立模式基础上搭建,参考文章:独立模式的Hadoop环境搭建。
三、基本环境配置
1、针对不同的模式在${HADOOP_HOME}/etc/下建立不同的配置文件夹
独立模式:hadoop_alone(建议)
伪分布模式:hadoop_presudo(建议)
完全分布模式:hadoop_cluster(建议)
2、参数配置目录的指定方式
A、默认方式:${HADOOP_HOME}/etc/hadoop/*.xml
B、通过启动参数指定配置目录
Start-dfs.sh –config=/path
C、通过环境变量HADOOP_CONF_DIR=/path(/etc/profile)
备注:因为搭建完全分布模式:我这里格式化名称节点和启动Hadoop的时候采用的B种方式。
四、环境搭建
第1步:在母机上搭建好JAVA和Hadoop基础环境
参考文章:独立模式的Hadoop环境搭建
第2步:在母机上配置ssh
第3步:在母机上配置hosts
第4步:克隆4台虚拟机并修改这4台的网卡配置
参考文章:克隆Linux后网卡修改方法
第5步:在母机上配置${HADOOP_HOME}/etc/hadoop_ cluster/core-site.xml
第6步 :配置${HADOOP_HOME}/etc/hadoop_cluster/hdfs-site.xml
第7步、配置${HADOOP_HOME}/etc/hadoop_cluster/mapred-site.xml
第8步、配置${HADOOP_HOME}/etc/hadoop_cluster/ yarn-site.xml
第9步、删除另外四台主机上的${HADOOP_HOME}/etc/hadoop_cluster
第10步、将母机上${HADOOP_HOME}/etc/hadoop_cluster远程拷贝给另外四台机子上的${HADOOP_HOME}/etc/下
以此类推……
第11步、在母机上格式化HDFS文件系统
第12步、启动HDFS和YRAN的守护进程(start-dfs.sh,start-yarn.sh)
start-dfs.sh --config /home/program/hadoop/etc/hadoop_cluster/
start-yarn.sh --config /home/program/hadoop/etc/hadoop_cluster/
备注 停止进程是按照YARN先关闭 然后关闭HDFS,不要频繁的格式化名称节点
第13步、通过fs操作HDFS里面的文件
A、创建目录:hadoop fs -mkdir -p /user/Ubuntu
B、显示目录:hadoop fs -ls -R /
……
第14步、访问:http://IP:50070
访问:http://IP:8088
原文地址:http://jaydenwang.blog.51cto.com/6033165/1763895