标签:分布式文件 终端 name ssh ecif 任务 specific org default
Hadoop Single Node Cluster只以一台机器来建立Hadoop环境,仍然可以使用Hadoop命令,只是无法发挥使用多台机器的威力。
因为Hadoop是以Java开发的,所以必须先安装Java环境。本文是以Ubuntu系统为例
在命令终端输入 java -version 查看
安装成功 返回的是 java 版本,未安装会提示包含在下列软件包中,执行下列命令安装
sudo apt-get update
sudo apt-get install default-jdk
安装完成后,再次查看java版本
执行 update-alternatives --display java ,系统会响应安装的路径。
Hadoop 是由很多台服务器所组成的。当我们启动Hadoop系统时,NameNode必须与DataNode连接,并管理这些节点(DataNode)。此时系统会要求用户输入密码。为了让系统顺利运行而不需手动输入密码,就需要SSH设置成无密码登录,设置为SSH Key(密钥)来进行身份验证。
sudo apt-get install ssh
sudo apt-get install rsync
ssh-keygen -t dsa -P ‘ ‘ -f ~/.ssh/id_dsa
SSH Key(密钥)会产生在用户的根目录下,可用如下命令查看
ll ~/.ssh
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
到Hadoop官网下载Hadoop版本,并安装到Ubuntu中
浏览器输入 https://archive.apache.org/dist/hadoop/common/ 选择Hadoop版本。
使用 wget 命令下载到本地
使用 sudo tar -zxvf Hadoop~~~ 解压
将 Hadoop 移动到 /usr/local
sudo mv hadoop~~~ /usr/local/hadoop
sudo gedit ~/.bashrc 打开,在文章末尾加入
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH
source ~/.bashrc
sudo gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh
修改 JAVA_HOME 设置,修改为: export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml
设置HDFS的默认名称
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
yarn-site.xml文件中含有MapReduce2(YARN)相关的配置设置
sudo gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
mapred-site.xml用于设置监控Map与Reduce程序的JobTracker任务分配情况以及TaskTracker任务运行情况。
sudo gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
hdfs-site.xml 用于设置HDFS分布式文件系统
sudo gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml
<configuration>
设置 blocks 副本备份数量
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
设置NameNode数据存储目录
<property>
<name>dfs.namenode.name.dir</name>
<value> file:/usr/local/hadoop/hadoop_data/hdfs/namenode</value>
</property>
设置DataNode数据存储
<property>
<name>dfs.datanode.data.dir</name>
<value> file:/usr/local/hadoop/hadoop_data/hdfs/datanode</value>
</property>
</configuration>
sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/namenode
sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode
sudo chown hduser:hduser -R /usr/local/hadoop
hadoop namenode -format
这个操作会删除所有的数据。
start-all.sh
Hadoop Single Node Cluster——Hadoop单节点集群的安装
标签:分布式文件 终端 name ssh ecif 任务 specific org default
原文地址:https://www.cnblogs.com/zhouzhishuai/p/10413422.html