PyCharm+Eclipse共用Anaconda的数据科学环境

时间：2017-06-02 13:28:36 阅读：630 评论：0 收藏：0 [点我收藏+]

标签：blog machine windows import 项目 1.5 编辑 ons 变量

1.安装anaconda2

　　安装好之后，本地python环境就采用anaconda自带的python2.7的环境。

2.安装py4j

　　在本地ctrl+r打开控制台后，直接使用pip安装py4j，因为anaconda默认是安装了pip的，当然也可以使用conda安装。

　　安装命令：pip install py4j

　　如果不安装py4j可能出现的问题？

答：因为Spark的Python版本的API依赖于py4j，如果不安装运行程序会抛出如下错误。

3.配置环境变量

　　配置PyCharm的环境变量主要配置两个变量一个是SPARK_HOME，另外一个是PYTHONPATH。

（1）.先打开Run Configurations

(创建一个项目，项目或python文件的左上角有该选项)

（2）.编辑Environment variables

或者按下面的方式展开

菜单：File-->Settings (图来源于互联网~这里我用的是python2)

技术分享

（3）.在Environment variables下增加spark和python的环境

　　增加SPARK_HOME目录与PYTHONPATH目录。

　　- SPARK_HOME:Spark安装目录

　　- PYTHONPATH:Spark安装目录下的Python目录

技术分享

4.复制pyspark的包

编写Spark程序，复制pyspark的包，增加代码显示功能

为了让我们在PyCharm编写Spark程序时有代码提示和补全功能，需要将Spark的pyspark导入到Python中。在Spark的程序中有Python的包，叫做pyspark

pyspark包

Python导入第三方的包也很容易，只需要把相应的模块导入到指定的文件夹就可以了。
windows中将pyspark拷贝到Python的site-packages目录下（这里使用的是anaconda）

5.测试代码

import sys
from operator import add

from pyspark import SparkContext

logFile = "D:\\BigData\\Workspace\\PycharmProjects\\MachineLearning1\\word.txt"
sc = SparkContext("local", "PythonWordCount")
logData = sc.textFile(logFile).cache()

numAs = logData.filter(lambda s: ‘a‘ in s).count()
numBs = logData.filter(lambda s: ‘b‘ in s).count()

print("Lines with a: %i, lines with b: %i" % (numAs, numBs))

PyCharm+Eclipse共用Anaconda的数据科学环境

标签：blog machine windows import 项目 1.5 编辑 ons 变量

原文地址：http://www.cnblogs.com/jackchen-Net/p/6932754.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行