标签:strong hdfs 开发 文件 data 管理 示例 tput 体会
这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等。
Linux和Windows所需软件包括:
如果你的集群尚未安装所需软件,你得首先安装它们。
以Ubuntu Linux为例:
$ sudo apt-get install ssh
$ sudo apt-get install rsync
为了获取Hadoop的发行版,从Apache的某个镜像服务器上下载最近的 稳定发行版。
解压所下载的Hadoop发行版。编辑 conf/hadoop-env.sh文件,至少需要将JAVA_HOME设置为Java安装根路径。
尝试如下命令:
$ bin/hadoop
将会显示hadoop 脚本的使用文档。
现在你可以用以下三种支持的模式中的一种启动Hadoop集群:
默认情况下,Hadoop被配置成以非分布式模式运行的一个独立Java进程。这对调试非常有帮助。
下面的实例将已解压的 conf 目录拷贝作为输入,查找并显示匹配给定正则表达式的条目。输出写入到指定的output目录。
apache文档如下:
$ mkdir input
$ cp conf/*.xml input
$ bin/hadoop jar hadoop-*-examples.jar grep input output ‘dfs[a-z.]+‘
$ cat output/*
实际情况需要作出调整:
$ mkdir input
$ cp -rf etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jar grep input output ‘dfs[a-z.]+‘
$ cat output/*
输出结果如下:
2 dfs.replication 1 dfsadmin 1 dfs.name.dir 1 dfs.data.dir
标签:strong hdfs 开发 文件 data 管理 示例 tput 体会
原文地址:http://www.cnblogs.com/xiaoliu66007/p/7596238.html