PySpark第一篇.PySpark简介

时间：2021-04-06 15:01:09 阅读：0 评论：0 收藏：0 [点我收藏+]

1.Spark概述

Apache Spark是一个闪电般快速的实时处理框架。它进行内存计算以实时分析数据。由于 Apache Hadoop MapReduce 仅执行批处理并且缺乏实时处理功能，因此它开始出现。因此，引入了Apache Spark，因为它可以实时执行流处理，也可以处理批处理。

除了实时和批处理之外，Apache Spark还支持交互式查询和迭代算法。Apache Spark有自己的集群管理器，可以托管其应用程序。它利用Apache Hadoop进行存储和处理。它使用 HDFS （Hadoop分布式文件系统）进行存储，它也可以在 YARN 上运行Spark应用程序。

2.PySpark概述

Apache Spark是用 Scala编程语言 编写的。为了用Spark支持Python，Apache Spark社区发布了一个工具PySpark。使用PySpark，您也可以使用Python编程语言中的 RDD 。正是由于一个名为 Py4j 的库，他们才能实现这一目标。PySpark提供了 PySpark Shell ，它将Python API链接到spark核心并初始化Spark上下文。

3.PySpark环境设置

考虑到您的计算机上安装了Java和Scala。现在让我们通过以下步骤下载并设置PySpark。

第1步 - 转到官方Apache Spark 下载页面并下载最新版本的Apache Spark。在本教程中，我们使用 spark-2.1.0-bin-hadoop2.7 。

链接地址https://spark.apache.org/downloads.html

第2步 - 现在，解压缩下载的Spark tar文件。默认情况下，它将下载到Downloads目录中。

# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

它将创建一个目录 spark-2.1.0-bin-hadoop2.7 。在启动PySpark之前，需要设置以下环境来设置Spark路径和 Py4j路径 。

export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH = $SPARK_HOME/python:$PATH

或者，要全局设置上述环境，请将它们放在 .bashrc文件中 。然后运行以下命令以使环境正常工作。

# source .bashrc

现在我们已经设置了所有环境，让我们转到Spark目录并通过运行以下命令调用PySpark shell

# ./bin/pyspark

这将启动你的PySpark shell。

Python 2.7.12 (default, Nov 19 2016, 06:48:10)
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  ‘_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as ‘spark‘.
<<<

原博链接 http://codingdict.com/article/8880

PySpark第一篇.PySpark简介

标签：exp 计算调用 pre 一个设置并且 ash lib

原文地址：https://www.cnblogs.com/lilinyuan5474/p/14617220.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行