标签:
hadoop总共有三种运行方式。本地模式(Local (Standalone) Mode),伪分布式(Pseudo-Distributed Mode),分布式(Fully-Distributed Mode)。后面足一讲解搭建本地以及伪分布式,分布式读者自行搭建。
参考资料(官网为主,网络资料为铺):
http://hadoop.apache.org/docs/r2.6.4/hadoop-project-dist/hadoop-common/SingleCluster.html#Standalone_Operation
测试环境:ubuntu14(读者可以自行安装虚拟机vmware里运行ubuntu)
Hadoop是要安装在JVM上运行的,所以都要安装JDK。所以必须按照JVM。
下载网址:
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
选择linux 64位系统,压缩后缀是tar.gz
截图中时8.73版本。我实际下载的时8.71版本。
我下载的在Downloads文件夹里,进入Downloads文件夹,再直接解压到/usr/local/jdk里,当然要先在/usr/local/文件夹里新建jdk文件夹:
命令如下:
我使用的是vim命令修改配置文件,所以要先安装vim编辑工具。代码如下:
修改bashrc文件,添加环境变量
在文件末尾加入如下内容: (只加入红色框里的内容)
再用soure命令,使其生效:
输入:java -version
能显示版本号,就表示JDK配置成功。
这里安装本地模式
下载地址:
http://hadoop.apache.org/releases.html
我选用时2.6.4版本,点击binary进入下载页面。
下来来后在系统的Downloads里
在local文件夹里创建一个hadoop文件夹。用来解压后存放hadoop-2.6.4
回到Downloads文件夹里解压hadoop:
配置前,先进入/usr/local做个权限设置,使用命令:sudo chmod –R 777 hadoop
将hadoop文件夹设置为读写权限为最高。这样后面修改配置文件和该目录下创建文件夹等都会很方便。
配置hadoop环境就是配置hadoop-env.sh文件。命令如下图:
修改下图JAVA_HOME路径,添加HADOOP_HOME路径(路径和自己实际存放位置一致)。内容如下图:
验证配置是否成功,输入bin/Hadoop version 可以查看Hadoop 2.6.4版本:
将bin目录配置到环境变量里。编辑.bashrc文件:
添加如下红色框图里的内容。
用source命令使配置生效:
这个时候hadoop的bin目录下的命令可以在所有目录下使用,测试如下,在根目录下使用hadoop version。
此时本地模式配好了。
创建input文件夹作为方要测试的输入文件。
将hadoop目录里的etc/hadoop目录下的所有.xml结尾的文件复制到input里
这里测试2个mapreduce程序,一个grep,一个wordcount。
该例子是搜索input文件夹内所有文件,找到以dfs开始后面跟着字母a-z的单词,并输出在output里。
输入代码如下:
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar grep input output ‘dfs[a-z.]+’
用cat命令来查看output文件夹里的所有文件。
输入:cat output/*
该例子是搜索input文件夹内所有文件,统计所有单词出现的次数,并输出在output/wordcount文件夹里。
用cat命令查看
结果如下:
到此Hadoop本地模式配置完成。
XianMing
标签:
原文地址:http://blog.csdn.net/xummgg/article/details/51172933