标签:exp 计算 调用 pre 一个 设置 并且 ash lib
Apache Spark是一个闪电般快速的实时处理框架。它进行内存计算以实时分析数据。由于 Apache Hadoop MapReduce 仅执行批处理并且缺乏实时处理功能,因此它开始出现。因此,引入了Apache Spark,因为它可以实时执行流处理,也可以处理批处理。
除了实时和批处理之外,Apache Spark还支持交互式查询和迭代算法。Apache Spark有自己的集群管理器,可以托管其应用程序。它利用Apache Hadoop进行存储和处理。它使用 HDFS (Hadoop分布式文件系统)进行存储,它也可以在 YARN 上运行Spark应用程序。
Apache Spark是用 Scala编程语言 编写的。为了用Spark支持Python,Apache Spark社区发布了一个工具PySpark。使用PySpark,您也可以使用Python编程语言中的 RDD 。正是由于一个名为 Py4j 的库,他们才能实现这一目标。PySpark提供了 PySpark Shell ,它将Python API链接到spark核心并初始化Spark上下文。
考虑到您的计算机上安装了Java和Scala。现在让我们通过以下步骤下载并设置PySpark。
第1步 - 转到官方Apache Spark 下载页面并下载最新版本的Apache Spark。在本教程中,我们使用 spark-2.1.0-bin-hadoop2.7 。
第2步 - 现在,解压缩下载的Spark tar文件。 默认情况下,它将下载到Downloads目录中。
# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz
它将创建一个目录 spark-2.1.0-bin-hadoop2.7 。在启动PySpark之前,需要设置以下环境来设置Spark路径和 Py4j路径 。
export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7 export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH export PATH = $SPARK_HOME/python:$PATH
或者,要全局设置上述环境,请将它们放在 .bashrc文件中 。然后运行以下命令以使环境正常工作。
# source .bashrc
现在我们已经设置了所有环境,让我们转到Spark目录并通过运行以下命令调用PySpark shell
# ./bin/pyspark
这将启动你的PySpark shell。
Python 2.7.12 (default, Nov 19 2016, 06:48:10) [GCC 5.4.0 20160609] on linux2 Type "help", "copyright", "credits" or "license" for more information. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ ‘_/ /__ / .__/\_,_/_/ /_/\_\ version 2.1.0 /_/ Using Python version 2.7.12 (default, Nov 19 2016 06:48:10) SparkSession available as ‘spark‘. <<<
原博链接 http://codingdict.com/article/8880
标签:exp 计算 调用 pre 一个 设置 并且 ash lib
原文地址:https://www.cnblogs.com/lilinyuan5474/p/14617220.html