标签:hadoop
下面介绍怎么在linux系统上设置和配置一个单节点的Hadoop,让你可以使用Hadoop的MapReduce和HDFS(Hadoop Distributed File System)做一些简单的操作。
$ mkdir input $ cp etc/hadoop/*.xml input $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep input output ‘dfs[a-z.]+‘ $ cat output/*
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>etc/hadoop/hdfs-site.xml:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
$ ssh localhost如果你不能无密匙访问,则需要执行下面的命令:
$ ssh-keygen -t dsa -P ‘‘ -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys $ export HADOOP\_PREFIX=/usr/local/hadoop下面执行一个本地的MaReduce任务。
$ bin/hdfs namenode -format2)开启NameNode精灵进程和DataNode精灵进程
$ sbin/start-dfs.sh如果该处出现错误“localhost: Error: JAVA_HOME is not set and could not be found”,则可以在libexec/hadoop-config.sh中直接配置“export JAVA_HOME=/usr/java/latest”。
-NameNode - http://localhost:50070/4)指定用于执行MapReduce任务的HDFS文件夹
$ bin/hdfs dfs -mkdir /user $ bin/hdfs dfs -mkdir /user/<username>5)拷贝输入文件到分布式文件系统
$ bin/hdfs dfs -put etc/hadoop input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep input output ‘dfs[a-z.]+‘
注意input和output对应hdfs上的文件夹7)检查输出文件:从分布式文件系统拷贝输出文件到本地文件系统,并检测它们
$ bin/hdfs dfs -get output output $ cat output/*或者直接在分布式文件系统上查看输出文件:
$ bin/hdfs dfs -cat output/*8)当你结束后,停止所有精灵进程
$ sbin/stop-dfs.sh
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>配置etc/hadoop/yarn-site.xml参数如下:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>2)启动ResourceManager精灵进程和NodeManager精灵进程
$ sbin/start-yarn.sh3)查看ResourceManager的web接口,默认为:
-ResourceManager - http://localhost:8088/4)运行一个MapReduce任务
$ sbin/stop-yarn.sh
版权声明:本文为博主原创文章,未经博主允许不得转载。
标签:hadoop
原文地址:http://blog.csdn.net/tomato__/article/details/48547953