hadoop2.7+Spark1.4环境搭建

时间：2015-07-14 18:27:22 阅读：172 评论：0 收藏：0 [点我收藏+]

标签：

一、hadoop伪分布式搭建

其实官网有比较详实的说明，英语好的可以直接看官网，地址

1、安装JDK1.7

这个省略，官网显示1.6可以，但是我用openjdk1.6出了异常，JDK1.6没试，直接用了JDK1.7

配置好环境变量

vi /etc/profile

JAVA_HOME=/jdk1.7.0_45
CLASSPATH=.:$JAVE__HOME/lib.tools.jar
PATH=$PATH：$JAVA__HOME/bin

添加完后执行命令使配置生效

source /etc/profile

2、安装ssh、rsync,（以ubuntu为例）

  $ sudo apt-get install ssh
  $ sudo apt-get install rsync

3、下载hadoop编译包，镜像地址（国内镜像竟然比US的还慢，不能忍，注意2.7的编译包为64位）

查是32还是64位的办法

cd hadoop-2.7.0/lib/native
file libhadoop.so.1.0.0

hadoop-2.7.0/lib/native/libhadoop.so.1.0.0: ELF 64-bit LSB shared object, AMD x86-64, version 1 (SYSV), not stripped

4、配置环境变量

hadoop配置文件指定java路径

etc/hadoop/hadoop-env.sh

export JAVA_HOME=/jdk1.7.0_45

系统环境变量

export HADOOP_HOME=/usr/hadoop/hadoop-2.7.0
export PATH=$PATH:$HADOOP_HOME/bin

添加完后执行命令使配置生效

source /etc/profile

执行命令查看是否成功

hadoop version

5、修改hadoop配置文件

etc/hadoop/core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

etc/hadoop/hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

6、设置hadoop ssh无密码访问

  $ ssh-keygen -t dsa -P ‘‘ -f ~/.ssh/id_dsa
  $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
  $ export HADOOP\_PREFIX=/usr/local/hadoop

7、格式化节点和启动hadoop

$ bin/hdfs namenode -format
$ sbin/start-dfs.sh

打开浏览器 http://localhost:50070/看是否成功

hdfs配置：username最好和当前用户名相同，不然会可能出现权限问题

  $ bin/hdfs dfs -mkdir /user
  $ bin/hdfs dfs -mkdir /user/<username>

8、yarn配置

etc/hadoop/mapred-site.xml:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

etc/hadoop/yarn-site.xml:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

启动yarn

$ sbin/start-yarn.sh

http://localhost:8088/查看是否成功

至此hadoop单节点伪分布式安装配置完成

二、spark安装配置

spark的安装相对就要简单多了

1、首先下载，地址

技术分享

因为我之前已经有hadoop了所以选择第二个下载

2、下载解压后进入目录

cd conf
cp spark-env.sh.template spark-env.sh
cp spark-defaults.conf.template spark-defaults.conf
vi conf/spark-env.sh

最后添加

export HADOOP_HOME=/usr/hadoop/hadoop-2.7.0

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export SPARK_DIST_CLASSPATH=$(hadoop classpath)

最后一个需要hadoop添加了环境变量才行。

官网配置中没有前两个配置，我运行例子时总报错，找不到hdfs jar 包。

3、回到解压目录运行示例

./bin/run-example SparkPi 10

成功则到此配置完成

想运行python或者scala请参考官网

hadoop2.7+Spark1.4环境搭建

标签：

原文地址：http://my.oschina.net/laigous/blog/478438

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行