文档说明
本文档为hadoop搭建实践文档,相关理论可到hadoop官网查看学习。
操作系统:Ubuntu14 x64位
Hadoop:Hadoop 2.7.0
Ubuntu官网:http://www.ubuntu.com/download/desktop
下载地址:
http://211.167.105.77:83/1Q2W3E4R5T6Y7U8I9O0P1Z2X3C4V5B/releases.ubuntu.com/14.04.2/ubuntu-14.04.2-desktop-amd64.iso
Hadoop官网:http://hadoop.apache.org/releases.html
单机版配置官网说明
http://hadoop.apache.org/docs/r2.7.0/hadoop-project-dist/hadoop-common/SingleCluster.html
1.安装Ubuntu
可以将iso文件格式化到U盘中,安装Ubuntu系统,具体实施步骤可自行百度。
2.安装配置Jdk
步骤参见:http://wxinpeng.iteye.com/blog/2098955。
2.1.下载jdk-7u79-linux-x64.tar.gz
下载网址:
http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html
2.2.解压JDK
$sudo tar zxvf jdk-7u79-linux-x64.tar.gz -C /usr/lib/jvm
2.3.设置环境变量(全局)
$sudo gedit /etc/profile
打开profile文件输入
export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_79
export CLASSPATH=".:$JAVA_HOME/lib:$CLASSPATH"
export PATH="$JAVA_HOME/bin:$PATH"
2.4.设置系统默认JDK
$sudo update-alternatives --install /usr/bin/java java /usr/lib/jvm/jdk1.7.0_79/bin/java 300
$sudo update-alternatives --install /usr/bin/javac javac /usr/lib/jvm/jdk1.7.0_79/bin/javac 300
$sudo update-alternatives --config java
2.5.验证JDK
$java -version
3.安装配置hadoop
3.1.下载hadoop
3.2.配置对应包
$ sudo apt-get install ssh
$ sudo apt-get install rsync
3.3.配置etc/hadoop/hadoop-env.sh
# set to the root of your Java installation
export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_79
3.4.测试一下
$bin/hadoop
3.5.运行简单例子
$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar grep input output ‘dfs[a-z.]+‘
$ cat output/*
3.6.配置相关文件
文件etc/hadoop/core-site.xml:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
文件etc/hadoop/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
3.7.检测ssh
$ssh localhost
3.8.执行mapreduce job
1)格式化文件系统
$ bin/hdfs namenode –format
2)启动服务
$ sbin/start-dfs.sh
3)浏览网页
NameNode - http://localhost:50070/
4)创建目录
$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/jsl
5)复制文件
$ bin/hdfs dfs -put etc/hadoop input
6)执行程序
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar grep input output ‘dfs[a-z.]+‘
7)查看结果
$ bin/hdfs dfs -get output
$ cat output/*
8)退出服务
$sbin/stop-dfs.sh
4.配置yarn
Yarn是hadoop的资源调度器,可以配置mapreduce job基于yarn运行。
1)配置etc/hadoop/mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
2)配置etc/hadoop/yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
3)启动服务
$ sbin/start-yarn.sh
4)浏览检测
ResourceManager - http://localhost:8088/
5)退出服务
$ sbin/stop-yarn.sh
常见问题及命令
1)查看对应hadoop版本
file lib/native/libhadoop.so.1.0.0
2)查看操作系统对应版本
cat /etc/issue
3)版本不一致时调整
删除临时目录
cd /tmp/hadoop-jsl/dfs/data
rm -rf current
版权声明:本文为博主原创文章,未经博主允许不得转载。
原文地址:http://blog.csdn.net/segen_jaa/article/details/47816665