Spark集群 Python Package管理

时间：2017-07-27 00:53:05 阅读：184 评论：0 收藏：0 [点我收藏+]

具体问题：

针对问题2的一个解决办法是将Python依赖库打包成*.egg文件，在运行pyspark或者spark-submit时使用–py-files加载egg文件。此解决方案的问题在于许多Python库都包含native code，编译时对平台依赖，并且对于一些复杂依赖的库（如Pandas）

1.github 下载pandas https://codeload.github.com/pandas-dev/pandas/zip/master
2.生成编译python setup.py bdist_egg就会创建一个egg出来了
3.如果需要gcc 请自行安装gcc

    yum -y install gcc gcc-c++ kernel-devel






参考：
http://blog.csdn.net/gongbi917/article/details/52369025
http://blog.csdn.net/willdeamon/article/details/53159548

原文地址：http://www.cnblogs.com/zle1992/p/7242525.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行