标签:
spark是由Scala语言编写的,但是运行的环境是jvm,所以需要安装JDK
编译过程:Python、java、Scala编写的代码 -> scala编译器编译解释,生成class文件 -> 由jvm负责执行class文件(与java代码执行一致)
由于 spark是由Scala语言编写的,所以依赖Scala环境,且由Scala编写的执行代码也需要环境进行编译。
hdfs是作为spark的持久层,所以需要安装Hadoop,同时如果需要配置spark on yarn,则Hadoop需要安装yarn版本的
spark官方详细参数配置手册:http://spark.apache.org/docs/latest/configuration.html
下载地址:http://spark.apache.org/downloads.html
-------------------------------------------------
编辑conf/spark-env.sh文件
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_MASTER_IP=dataMaster30
export SPARK_EXECUTOR_INSTANCES=3
export SPARK_EXECUTOR_CORES=3
export SPARK_EXECUTOR_MEMORY=8g
export SPARK_DRIVER_MEMORY=2g
启动spark集群:
/usr/local/spark/sbin/start-all.sh
关闭spark集群:
/usr/local/spark/sbin/stop-all.sh
查看集群状态:
http://master30:8080/
检测是否安装成功:
# jps (Master节点) 此时会多出现一个Master进程
1701 Master
1459 SecondaryNameNode
2242 NameNode
1907 ResourceManage
# jps (Worker节点) 此时会多出现一个Worker进程
5387 Worker
4269 DataNode
4398 NodeManager
标签:
原文地址:http://www.cnblogs.com/wjoyxt/p/5531857.html