完全分布式模式的Hadoop环境搭建

时间：2016-04-14 22:44:22 阅读：262 评论：0 收藏：0 [点我收藏+]

一、本文说明：
本次测试在五台虚拟机系统上进行完全分布式搭建。Hadoop分布式模式是在多台机器上分布式部署，配置非常类似于伪分布式，名称节点和数据节点都分布在不同的主机上，每台数据节点上都有相应的任务调度。

二、环境说明：
       虚拟软件：VM10.0
       操作系统：Cent Os 6.7
       hadoop版本：hadoop-2.7.2
       JDK版本：jdk1.8_77
备注：基于独立模式基础上搭建，参考文章：独立模式的Hadoop环境搭建。

三、基本环境配置
       1、针对不同的模式在${HADOOP_HOME}/etc/下建立不同的配置文件夹
            独立模式：hadoop_alone（建议）
            伪分布模式：hadoop_presudo（建议）
            完全分布模式：hadoop_cluster（建议）

       2、参数配置目录的指定方式
              A、默认方式：${HADOOP_HOME}/etc/hadoop/*.xml
              B、通过启动参数指定配置目录
                     Start-dfs.sh –config=/path
              C、通过环境变量HADOOP_CONF_DIR=/path(/etc/profile)
       备注：因为搭建完全分布模式：我这里格式化名称节点和启动Hadoop的时候采用的B种方式。
四、环境搭建
第1步：在母机上搭建好JAVA和Hadoop基础环境
       参考文章：独立模式的Hadoop环境搭建

第2步：在母机上配置ssh
技术分享

第3步：在母机上配置hosts

第4步：克隆4台虚拟机并修改这4台的网卡配置
       参考文章：克隆Linux后网卡修改方法

第5步：在母机上配置${HADOOP_HOME}/etc/hadoop_ cluster/core-site.xml


第6步：配置${HADOOP_HOME}/etc/hadoop_cluster/hdfs-site.xml
技术分享

第7步、配置${HADOOP_HOME}/etc/hadoop_cluster/mapred-site.xml

第8步、配置${HADOOP_HOME}/etc/hadoop_cluster/ yarn-site.xml

第9步、删除另外四台主机上的${HADOOP_HOME}/etc/hadoop_cluster

第10步、将母机上${HADOOP_HOME}/etc/hadoop_cluster远程拷贝给另外四台机子上的${HADOOP_HOME}/etc/下
技术分享

以此类推……

第11步、在母机上格式化HDFS文件系统


第12步、启动HDFS和YRAN的守护进程（start-dfs.sh,start-yarn.sh）
       start-dfs.sh --config /home/program/hadoop/etc/hadoop_cluster/
       start-yarn.sh --config /home/program/hadoop/etc/hadoop_cluster/
       备注停止进程是按照YARN先关闭然后关闭HDFS，不要频繁的格式化名称节点

第13步、通过fs操作HDFS里面的文件
       A、创建目录：hadoop fs -mkdir -p /user/Ubuntu
       B、显示目录：hadoop fs -ls -R /
       ……
第14步、访问：http://IP:50070
              访问：http://IP:8088
技术分享