码迷,mamicode.com
首页 > 其他好文 > 详细

PySpark第一篇.PySpark简介

时间:2021-04-06 15:01:09      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:exp   计算   调用   pre   一个   设置   并且   ash   lib   

1.Spark概述

Apache Spark是一个闪电般快速的实时处理框架。它进行内存计算以实时分析数据。由于 Apache Hadoop MapReduce 仅执行批处理并且缺乏实时处理功能,因此它开始出现。因此,引入了Apache Spark,因为它可以实时执行流处理,也可以处理批处理。

除了实时和批处理之外,Apache Spark还支持交互式查询和迭代算法。Apache Spark有自己的集群管理器,可以托管其应用程序。它利用Apache Hadoop进行存储和处理。它使用 HDFS (Hadoop分布式文件系统)进行存储,它也可以在 YARN 上运行Spark应用程序。

2.PySpark概述

Apache Spark是用 Scala编程语言 编写的。为了用Spark支持Python,Apache Spark社区发布了一个工具PySpark。使用PySpark,您也可以使用Python编程语言中的 RDD 。正是由于一个名为 Py4j 的库,他们才能实现这一目标。PySpark提供了 PySpark Shell ,它将Python API链接到spark核心并初始化Spark上下文。

3.PySpark环境设置

考虑到您的计算机上安装了Java和Scala。现在让我们通过以下步骤下载并设置PySpark。

  • 第1步 - 转到官方Apache Spark 下载页面并下载最新版本的Apache Spark。在本教程中,我们使用 spark-2.1.0-bin-hadoop2.7

    链接地址https://spark.apache.org/downloads.html

  • 第2步 - 现在,解压缩下载的Spark tar文件。 默认情况下,它将下载到Downloads目录中。

    # tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

    它将创建一个目录 spark-2.1.0-bin-hadoop2.7 。在启动PySpark之前,需要设置以下环境来设置Spark路径和 Py4j路径

    export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
    export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
    export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
    export PATH = $SPARK_HOME/python:$PATH

    或者,要全局设置上述环境,请将它们放在 .bashrc文件中 。然后运行以下命令以使环境正常工作。

    # source .bashrc

    现在我们已经设置了所有环境,让我们转到Spark目录并通过运行以下命令调用PySpark shell

    # ./bin/pyspark

    这将启动你的PySpark shell。

    Python 2.7.12 (default, Nov 19 2016, 06:48:10)
    [GCC 5.4.0 20160609] on linux2
    Type "help", "copyright", "credits" or "license" for more information.
    Welcome to
          ____              __
         / __/__  ___ _____/ /__
        _\ \/ _ \/ _ `/ __/  _/
       /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
          /_/
    Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
    SparkSession available as spark.
    <<<

原博链接 http://codingdict.com/article/8880

 

PySpark第一篇.PySpark简介

标签:exp   计算   调用   pre   一个   设置   并且   ash   lib   

原文地址:https://www.cnblogs.com/lilinyuan5474/p/14617220.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!