hadoop+hive+spark搭建（三）

时间：2017-05-02 18:28:55 阅读：198 评论：0 收藏：0 [点我收藏+]

标签：.sh 模式成功数据存储 argument nts java size type

一、spark安装

　　因为之前安装过hadoop，所以，在“Choose a package type”后面需要选择“Pre-build with user-provided Hadoop [can use with most Hadoop 　　distributions]”，然后，点击“Download Spark”后面的“spark-2.1.0-bin-without-hadoop.tgz”下载即可。Pre-build with user-provided Hadoop: 　　属于“Hadoop free”版，这样，下载到的Spark，可应用到任意Hadoop 版本。　　

　　　　　　技术分享

　　上传spark软件包到任意节点上

　　解压缩spark软件包到/usr/local/目录下

　　重命名为spark文件夹

　　　　 mv spark-2.1.0-bin-without-hadoop/ spark

　　重命名conf/目录下spark-env.sh.template为spark-env.sh

　　　　cp spark-env.sh.template spark-env.sh

　　重命名conf/目录下slaves.template为slaves

　　　　mv slaves.template slaves

二、配置spark

　　　编辑conf/spark-env.sh文件，在第一行添加以下配置信息:

　　　　　　export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

　　　　　　＃上述表示Spark可以把数据存储到Hadoop分布式文件系统HDFS中，也可以从HDFS中读取数据。如果没有配置上面信息，Spark就只能读写本地数据，无法读写HDFS数据。

　　　　　　export JAVA_HOME=/usr/local/jdk64/jdk1.8.0

　　　编辑conf/slaves文件

　　　　　　技术分享

三、验证spark是否安装成功

　　在spark目录中输入命令验证spark是否安装成功

　　　　　　bin/run-example SparkPi

　　　　　　bin/run-example SparkPi 2>&1 | grep "Pi is"　　　　　　　　#过滤显示出pi的值

　　　　　　技术分享

　　　　web界面为8080端口

　　　　　技术分享

　　集群模式下shell

　　　pyspark --master spark://master:7077　　　　#python

　　提交应用

　　　　spark-submit

　　　　　　--class <main-class> 　　　　　　　　#需要运行的程序的主类，应用程序的入口点
　　　　　　--master <master-url> 　　　　　　　#Master URL，下面会有具体解释
　　　　　　--deploy-mode <deploy-mode> 　　 #部署模式
　　　　　　... # other options 　　　　　　　　　 #其他参数
　　　　　　<application-jar> 　　　　　　　　　 #应用程序JAR包
　　　　　　[application-arguments]　　　　　　 #传递给主类的主方法的参数

hadoop+hive+spark搭建（三）

标签：.sh 模式成功数据存储 argument nts java size type

原文地址：http://www.cnblogs.com/lonenysky/p/6782782.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

hadoop+hive+spark搭建（三）

一、spark安装

上传spark软件包到任意节点上

解压缩spark软件包到/usr/local/目录下

重命名为spark文件夹

重命名conf/目录下spark-env.sh.template为spark-env.sh

重命名conf/目录下slaves.template为slaves

二、配置spark

编辑conf/spark-env.sh文件，在第一行添加以下配置信息:

编辑conf/slaves文件

三、验证spark是否安装成功

在spark目录中输入命令验证spark是否安装成功

集群模式下shell

pyspark --master spark://master:7077 #python

提交应用

　　上传spark软件包到任意节点上

　　解压缩spark软件包到/usr/local/目录下

　　重命名为spark文件夹

　　重命名conf/目录下spark-env.sh.template为spark-env.sh

　　重命名conf/目录下slaves.template为slaves

　　　编辑conf/spark-env.sh文件，在第一行添加以下配置信息:

　　　编辑conf/slaves文件

　　在spark目录中输入命令验证spark是否安装成功

　　集群模式下shell

　　　pyspark --master spark://master:7077　　　　#python

　　提交应用