sudo yum install java-1.7.0-openjdk.i686 sudo yum install maven-noarch maven-release-manager.noarch maven-release-plugin.noarch sudo yum install scala.noarch
在Windows平台上需要借助Eclipse来进行编译,比较麻烦,所以这里是在Linux平台上搭建的,具体环境如下:
1. 系统:Fedora release 20 (Heisenbug)
2. Spark:spark-1.2.0 http://spark.apache.org/
3. Maven:3.1.1
4. Scala:2.10.3
5. Java:1.7.0
Linux的发行版本都有各种通用的包管理器,比如Fedora的yum、Debian的apt等。通过这些工具,安装前的环境可以很快搭建完成:
环境搭建完成后,就到spark的官网http://spark.apache.org/下载最新版本的压缩包。截止2015年1月20日,最新的压缩包为spark-1.2.0.tgz。可以通过下面的命令来解压缩:
tar xvf spark-1.2.0.tgz
cd spark-1.2.0 mvn -DskipTests clean package
安装完成后可以运行第一个示例:
./bin/run-example SparkPi 10
...java.net.UnkownHostException: unknown host: namenode
spark.eventLog.dir hdfs://localhost:8021/directory
改好后重新运行可以得到下面的输出:
Pi is roughly 3.139344
Pi is roughly 3.1418872
下面这个程序改编自Spark的官方文档,主要是尝试python在spark上的接口:
from pyspark import SparkContext logFile = "/path/to/one/text/file" # Should be some file on your system sc = SparkContext("local", "Simple App") logData = sc.textFile(logFile).cache() num = logData.filter(lambda s: 'Spark' in s).count() print "Lines containing Spark: %i" % num
$ pyspark simpleapp.py Lines containing Spark: 19
原文地址:http://blog.csdn.net/alburthoffman/article/details/43165209