码迷,mamicode.com
首页 >  
搜索关键字:pyspark    ( 164个结果
pyspark中使用累加器Accumulator统计指标
评价分类模型的性能时需要用到以下四个指标 最开始使用以下代码计算,发现代码需要跑近一个小时,而且这一个小时都花在这四行代码上 心想着理论上可以只扫描一遍数据就可以计算出这四个指标 一开始在freach函数中传递一个自定义评估函数,这个函数来统计上面四个指标,然后在函数里再使用全局变量TP,TN等 但 ...
分类:其他好文   时间:2017-04-14 22:14:09    阅读次数:577
Spark调研笔记第5篇 - Spark API简单介绍
因为Spark是用Scala实现的,所以Spark天生支持Scala API。此外,还支持Java和Python API。以Spark 1.3版本号的Python API为例。其模块层级关系例如以下图所看到的: 从上图可知,pyspark是Python API的顶层package,它包括了几个重要的 ...
分类:Windows程序   时间:2017-04-13 15:22:33    阅读次数:272
Anaconda中配置Pyspark的Spark开发环境
1.windows下载并安装Anaconda集成环境 https://www.continuum.io/downloads 2.在控制台中测试ipython是否启动正常 3.安装JDK 3.1环境变量配置: 3.2测试: 4.安装Spark并配置环境变量 4.1 URL: http://spark. ...
分类:其他好文   时间:2017-04-05 09:37:00    阅读次数:373
Conda 搭建jupyter notebook + pyspark
python3.6不支持pyspark, 好在用的是Anaconda这种神器,可以随意切换python版本。因为我的Spark是1.6的,所以python2.7应该是可以的。 首先 { "display_name": "PySpark", "language": "python", "argv": ...
分类:其他好文   时间:2017-03-31 16:33:28    阅读次数:2415
图解Spark API
初识spark,需要对其API有熟悉的了解才能方便开发上层应用。本文用图形的方式直观表达相关API的工作特点,并提供了解新的API接口使用的方法。例子代码全部使用python实现。 1. 数据源准备 准备输入文件: 启动pyspark: 使用textFile创建RDD: 查看RDD分区与数据: 2. ...
分类:Windows程序   时间:2017-03-14 13:15:29    阅读次数:388
python pyspark入门篇
一.环境介绍: 1.安装jdk 7以上 2.python 2.7.11 3.IDE pycharm 4.package: spark-1.6.0-bin-hadoop2.6.tar.gz 二.Setup 1.解压spark-1.6.0-bin-hadoop2.6.tar.gz 到目录D:\spark ...
分类:编程语言   时间:2017-03-03 19:19:52    阅读次数:3238
通过 --py-files 可以在pyspark中可以顺利导入
文件import问题 问题: 在脚本中import了其他文件, pyspark中可以运行, 但是在spark-submit中总是失败 假定我们的任务脚本为 app.py , 大体代码像这样: from pyspark import SparkContext ## 加载通用脚本 import comm ...
分类:其他好文   时间:2016-12-17 13:35:56    阅读次数:1708
[jetbrains系列] 外链第三方库+代码补全设置
jetbrains系列的IDE真的是太好用了,有种相见恨晚的感觉。 在开发过程中第三方库是必不可少的,在开发的时候如果有一个可以补全的IDE可以节省查文档的时间。 举个例子:给pycharm配pyspark的环境变量,并且设置代码补全。最终结果应该是这样的: 首先配置的是第三方库的编译(解释)支持, ...
分类:其他好文   时间:2016-12-13 15:58:54    阅读次数:292
给pyspark 设置新的环境
如果是从pysparkshell里面进去,此时已经有了pyspark环境了,所以要加一个:sc.stop() from pyspark import SparkContext, SparkConfsc.stop()conf = SparkConf()conf.setAppName('zhangb') ...
分类:其他好文   时间:2016-11-29 19:04:45    阅读次数:896
pyspark使用ipython
在Ubuntu下,安装ipython很简单: $sudo apt-get install ipython 在bash env中添加变量: 再次使用,已经是ipython了! ...
分类:编程语言   时间:2016-11-05 20:40:23    阅读次数:237
164条   上一页 1 ... 11 12 13 14 15 ... 17 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!