码迷,mamicode.com
首页 > 其他好文 > 详细

pyspark+anaconda配置

时间:2019-07-13 13:38:08      阅读:94      评论:0      收藏:0      [点我收藏+]

标签:alt   exe   pip   设置   index   我的电脑   新建   editor   文件   

参考 https://www.e-learn.cn/content/python/786199

 

1.安装anaconda

官网下载安装python3.7版

2.安装JAVA

官网下载安装

https://www.oracle.com/technetwork/java/javase/overview/index.html

 

设置环境变量

安装好以后,配置Java的环境变量,右键我的电脑,依次点击属性-高级系统设置-环境变量

新建用户变量: JAVA_HOME;C:\Program Files\Java\jdk-XXXXXX

 //这里有问题,见最后的错误及解决

技术图片

 

在系统变量中找到Path,点击按钮新建,然后添加文字%JAVA_HOME%\bin,最后按回车Enter,一直点击确定,就保存了更改,这样就将bin文件夹中的Java程序放到了系统变量中。

技术图片

 

3.下载安装并配置Spark

官网 http://spark.apache.org/downloads.html

官方网站Download Apache Spark™下载相应版本的spark,因为spark是基于hadoop的,需要下载对应版本的hadoop才行,这个页面有对hadoop的版本要求

技术图片

 

配置环境变量

分别在用户变量添加SPARK_HOME ,在环境变量的PATH 添加对应的bin,sbin

技术图片

 

技术图片

 

4.安装并配置Hadoop

http://hadoop.apache.org/releases.html

上面安装spark的时候有对hadoop的版本要求,这里要求的是2.7及以后的版本,进入官方网站Apache Hadoop Releases下载3.1.2 binary版本,

其中source版本是该版本hadoop的源代码,下载以后解压

技术图片

 

配置环境变量:

右键我的电脑,依次点击属性-高级系统设置-环境变量

新增用户变量 HADOOP_HOME 

技术图片

 

然后找到系统变量Path  点击按钮新建,然后添加文本%HADOOP%\bin,按回车enter,继续新建一个,添加文本%HADOOP%\sbin,

按键回车,一直点击确定,就保存了更改,这样就将bin、sbin文件夹中的程序放到了系统变量中

技术图片

 

从网站中下载一个压缩包,然后解压出来,复制其中的winutils.exe和winutils.pdb到hadoop的安装文件夹中,

复制目录为:D:\hadoop-3.1.2\hadoop-3.1.2\bin

https://github.com/srccodes/hadoop-common-2.2.0-bin

 

 5.安装pyspark

cmd,进入spark的python目录

技术图片

 

pip install pyspark

 技术图片

 

6.检查

技术图片

 

参考https://blog.csdn.net/qq_38799155/article/details/78254580

import os
import sys

spark_home = os.environ.get(SPARK_HOME, None)
if not spark_home:
    raise ValueError(SPARK_HOME environment variable is not set)
sys.path.insert(0, os.path.join(spark_home, python))
sys.path.insert(0, os.path.join(spark_home, python/lib/py4j-0.10.4-src.zip))
comm=os.path.join(spark_home, python/lib/py4j-0.10.4-src.zip)
print (start spark....,comm)
exec(open(os.path.join(spark_home, python/pyspark/shell.py)).read())

 

技术图片

 

 

 

遇到的问题

技术图片

 

原因,添加的JAVA环境路径包含空格

 技术图片

修改为

技术图片

 

pyspark+anaconda配置

标签:alt   exe   pip   设置   index   我的电脑   新建   editor   文件   

原文地址:https://www.cnblogs.com/lqerio/p/11180117.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!