Hadoop Spark 集群简便安装总结

时间：2015-07-05 09:34:59 阅读：112 评论：0 收藏：0 [点我收藏+]

本人实际安装经验，目的是为以后快速安装，仅供自己参考。
一、Hadoop
1、操作系统一如既往：①setup关掉防火墙、②vi /etc/sysconfig/selinux，改SELINUX=disabled 。(3)同时应该卸载掉OpenJdk。④并在每台机器上建立用户，如：useradd hadoop -p 123456 (还可 -d 指定目录) 。
2、ssh。①让集群有相同的/etc/hosts文件。②在每台机器上用hadoop用户执行 ssh-keygen。在其中一台上用户目录下的.ssh文件夹下执行: cat id_rsa.pub >>authorized_keys ；之后将authorized_keys拷贝出来，用UE打开，将其他集群中的id_rsa.pub内容添加到后面。还有给所在目录：chmod 600 *
最后把笔记本上的 hosts、authorized_keys再拷到相应的位置，并且以后可以复用了。
3、上传并 tar -zxvf jdk到某个文件夹，如：/opt/jdk 。
4、设置/etc/profile。这里一下在文件最后设置许多变量，方便等下拷贝到所有的机器，然后source profile(或重启)生效。（注意：最好先用SSH Secure File Transfer Client工具拷贝过来一个profile文件，再用ultraEdit编辑，用win记事本不行）

export JAVA_HOME=/opt/jdk
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_HOME=/home/hadoop/hadoop2.7
#export HBASE_HOME=/home/hadoop/hbase 
#export ZOOKEEPER_HOME=/home/hadoop/zookeeper 
export SCALA_HOME=/home/hadoop/scala 
export SPARK_HOME=/home/hadoop/spark 
#export KAFKA_HOME=/home/hadoop/kafka 
#export HIVE_HOME=/home/hadoop/hive 
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin

5、修改hadoop参数文件。在其中一台用户目录下解压hadoop，结果可如：hadoop2.7 。hadoop会默认许多参数，如果是单机测试，甚至都不用修改参数。但我们是集群，需要修改几个必需的。默认配置可以查找 **default.xml，找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,可以参考这些配置的说明和key（网上也有默认：http://hadoop.apache.org/docs）。下面是尽量少配。
（1）core-site.xml ，2个配置

<configuration>
<property>
  <name>hadoop.tmp.dir</name>
    <value>/home/hadoop/tmp</value>
    <description>配了这个，以后hdfs-site.xml就不用配data和name文件夹了，连建立都不用</description>
</property>

<property>
   <name>fs.defaultFS</name>
     <value>hdfs://master:9000</value>
     <description>这个也应该是必须的，而且必须写主机名，连IP都不行</description>
</property>
</configuration>

（2）hdfs-site.xml ，如果服务器大于3台就不用了

<configuration>
    <property>
      <name>dfs.replication</name>
        <value>2</value>
        <description>复制几份？默认3，如果大于3台服务器，就不用了 </description>
    </property>
</configuration>

（3）mapred-site.xml

<configuration>
 <property>
   <name>mapreduce.framework.name</name>
     <value>yarn</value>
       <description>The runtime framework for executing MapReduce jobs.
         Can be one of local, classic or yarn.默认是local，适合单机
       </description>
  </property>
</configuration>

（4）yarn-site.xml

<configuration>
<property>
    <description>既然选择了yarn，就得填,这个就是以前的master配置了</description>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
</property> 
</configuration>

（5）slaves。每行一个slave主机名。
（6）hadoop-env.sh 和 yarn-env.sh 。其内容虽然看着有JAVA_HOME的配置，但好像不生效，还得再写一遍JAVA_HOME配置。
以上虽然看起来很多，但实际就是告诉他：数据的存放目录(core)，MR要用yarn，yarn的master是谁，如此而已。把以上文件存起来，以后稍加修改后，就可重复利用了。
5、启动与测试
（1）格式化HDFS： $HADOOP_HOME/bin/hdfs namenode -format （2）启动集群：$ HADOOP_HOME/sbin/start-all.sh
（3）在master和slaver的sbin下执行jps。
（4）hdfs dfs -mkdir /xxx
hdfs dfs -ls /
6、UI访问
（1）状态：netstat -nap | grep 54310
（2）http://:8088
NameNode：http://:50070
JobTracker：http://:50030

所以，安装简单来说就是：ssh、配JAVA_HOME / HADOOP_HOME等profile参数、配数据存放目录 / MR要用yarn 及 master是谁 。
我还将上面涉及到的文件打包成文件，可下载重复使用。
以上是Hadoop的配置，SPARK改日再续。

                                      河南省公安厅：党玉龙

Hadoop Spark 集群简便安装总结

标签：hadoop spark ssh yarn

原文地址：http://blog.csdn.net/fengyun14/article/details/46760547

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行