码迷,mamicode.com
首页 > 其他好文 > 详细

配置伪分布式02

时间:2017-05-18 13:28:37      阅读:256      评论:0      收藏:0      [点我收藏+]

标签:web   添加   ica   环境配置   param   floyd   datanode   arp   mon   

上一篇博文,博主以自己的看法对大数据与 Hadoop 进行了一些简单的介绍,然后配置了系统环境。这篇博文,博主继续把配置伪分布式接下来的步骤与配置的意义写下来。

 

创建目录

为了规范,我们通常用普通用户进行对软件的安装与操作。
这里我们使用 root 用户创建两个目录用于存放安装包与安装软件目录并授权给我们使用的普通用户。
1 [root@floyd ~]# mkdir /opt/modules /opt/softwares
2 [root@floyd ~]# chown Tom:Tom/opt/modules//opt/softwares/
检查是否授权成功:
技术分享
 

安装配置 JDK

Hadoop 以 Java 语言写就,因而需要在本地计算机安装 JDK。
安装主要是两步,解压与环境配置。
1. 安装前先检查本地是否存在 jdk
1 [Tom@floyd~]$ rpm -qa | grep -i java #检查本地是否已经安装jdk
2 [Tom@floyd~]$ rpm -e --nodeps jdkxxxxxxxxxxxxxxxxxxx #如果有就删除掉

 

2. 把 JDK 安装包解压指定安装目录
[Tom@floyd softwares]$ tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/modules/

 

3. 配置环境变量
[Tom@floyd~]$ sudo vi /etc/profile

编辑 profile 文件,在最后一行添加

# JAVA_HOME
JAVA_HOME=/opt/modules/jdk1.7.0_67
export PATH=$PATH:$JAVA_HOME/bin
 
配置完执行立即生效指令
1 [Tom@floyd~]$ source /etc/profile
2 [Tom@floyd~]$ java -version # 检查java 版本
技术分享
* sudo 指令需要配置才能使用
[root@floyd ~]# visudo
编辑文件添加一行:Tom     ALL=(root)      NOPASSWD: ALL 
使用 sudo 指令可以令普通用户执行单行指令时拥有 root 权限。
 

安装配置 Hadoop

上一篇博文对 Hadoop 进行了一些描述,下面博主再详细的对 Hadoop 进行一下描述。
Hadoop 的一些模块:
1. common:
      一系列组建和接口,用于分布式文件系统和通用 I/O (序列化、JavaRPC 和持久化数据结构),为其他 Hadoop 模块提供基础设施。
2. HDFS(Hadoop Distribute File System)
       运行于大型商用机集群,多台服务器组成,高可靠、高吞吐量的分布式文件系统。
3. MapReduce:
       Map(映射:mapper)Reduce(归约:reduction)分布式数据处理模型和执行环境,运行于大型商用机集群;它是一个分布式的离线并行计算框架,只有相关任务启动以后才会有对应的线程产生。
4. YARN:
       相当于 Hadoop 的操作系统,任务调度与资源管理;1.x 版本没有YARN。
 
Hadoop 生态圈:
博主有一篇博文上有简单的介绍:连接http://www.cnblogs.com/moyinyu/p/6872550.html
 
下面我们开始安装配置 Hadoop
1. 把 Hadoop 安装包解压到指定安装目录
[Tom@floyd~]$ tar -zxvf /opt/softwares/hadoop-2.5.0.tar.gz -C /opt/modules/

 

2. 环境配置(可选)
[Tom@floyd~]$ sudo vi /etc/profile    # 与配置jdk环境方法类似
# HADOOP_HOME
export HADOOP_INSTALL=/opt/modules/hadoop-2.5.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
 

配置 HDFS:

1. edit hadoop-env.sh
[Tom@floyd~]$ cd /opt/modules/hadoop-2.5.0/etc/hadoop/
[Tom@floyd hadoop]$ sudo vi hadoop-env.sh

# The java implementation to use.

export JAVA_HOME=/opt/modules/jdk1.7.0_67
 
2. edit core-site.xml
 1 <configuration>
 2     <!--NameNode的访问URI,写主机名或ip地址,8020为默认端口,可改-->
 3     <property>
 4         <name>fs.defaultFS</name>
 5         <value>hdfs://floyd.domain:8020</value>
 6     </property>
 7     <!--临时数据目录,用来存放数据,格式化时会自动生成-->
 8     <property>
 9         <name>hadoop.tmp.dir</name>
10         <value>/opt/modules/hadoop-2.5.0/data</value>
11     </property>
12 </configuration>

 

3. edit hdfs-site.xml
1 <configuration>
2     <!--Block的副本数,伪分布式要改为1-->
3     <property>
4         <name>dfs.replication</name>
5         <value>1</value>
6     </property>
7 </configuration>

 

4. namenode format
[Tom@floyd hadoop-2.5.0]$ bin/hdfs namenode -format
初次使用格式化 namenode 此时会自动生成 data 目录
 
5. start process
1 [Tom@floyd hadoop-2.5.0]$ sbin/hadoop-daemon.sh start namenode
2 [Tom@floyd hadoop-2.5.0]$ sbin/hadoop-daemon.sh start datanode
3 [Tom@floyd hadoop-2.5.0]$ jps    # Process status
技术分享
 
6. Web 页面
在 HDFS 系统建立 MyBlogTest 文件夹并上传 a.txt 文件
1 [Tom@floyd hadoop-2.5.0]$ bin/hdfs dfs -mkdir /MyBlogTest
2 [Tom@floyd hadoop-2.5.0]$ vi a.txt
3 [Tom@floyd hadoop-2.5.0]$ bin/hdfs dfs -put a.txt /MyBlogTest
我们可以在网页输入主机名或者 ip 加端口号 50070 查看 HDFS 文件系统
eg:
技术分享
技术分享
 

配置 YARN

1. edit yarn-env.sh
[Tom@floyd hadoop]$ sudo vi yarn-env.sh
# some Java parameters
export JAVA_HOME=/opt/modules/jdk1.7.0_67
 
2. edit mapred-env.sh
[Tom@floyd hadoop]$ sudo vi mapred-env.sh
export JAVA_HOME=/opt/modules/jdk1.7.0_67
 
3. edit slaves
[Tom@floyd hadoop]$ sudo vi slaves
# insert your hostname
floyd.domain
 
4. edit yarn-site.xml
 1 <configuration>
 2     <!--NodeManager上运行的辅助(auxiliary)服务,需配置成mapreduce_shuffle,才可运行MapReduce程序-->
 3     <property>
 4         <name>yarn.nodemanager.aux-services</name>
 5         <value>mapreduce_shuffle</value>
 6     </property>
 7     <!--指定resourcemanager主机-->
 8     <property>
 9         <name>yarn.resourcemanager.hostname</name>
10         <value>floyd.domain</value>
11     </property>
12     <!--启用日志聚合功能-->
13     <property>
14         <name>yarn.log-aggregation-enable</name>
15         <value>true</value>
16     </property>
17     <!--日志保留时间,单位秒-->
18     <property>
19         <name>yarn.log-aggregation.retain-seconds</name>
20         <value>86400</value>
21     </property>
22 </configuration>

 

5. edit mapred-site.xml (mapred-site.xml.template 重命名:mapred-site.xml)
<configuration>
    <!--mapreduce是一种编程模型,运行在yarn平台上面-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <!--JobHistory服务的IPC地址(IPC:Inter-ProcessCommunication进程间通信)-->
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>floyd.domain:10020</value>
    </property>
    <!--日志的web访问地址-->
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>floyd.domain:19888</value>
    </property>
</configuration>    

 

6. start process
1 [Tom@floyd hadoop-2.5.0]$ sbin/yarn-daemon.sh start resourcemanager
2 [Tom@floyd hadoop-2.5.0]$ sbin/yarn-daemon.sh start datamanager
技术分享
 yarn的作业监控平台,显示yarn平台上运行job的所用资源(CPU、内存)等信息
 
伪分布式的配置到这里就结束了
下一篇博文,博主会详细的跟大家谈一下 NameNode、DataNode、ResourceManager、NodeManager 的工作过程,并跟大家谈谈关于 MapReduce 的工作原理。
 
 
 
写作时间:
20170517:Floyd
 
 
 
 
 
 
 
 
 
 





配置伪分布式02

标签:web   添加   ica   环境配置   param   floyd   datanode   arp   mon   

原文地址:http://www.cnblogs.com/moyinyu/p/6872711.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!