评价分类模型的性能时需要用到以下四个指标 最开始使用以下代码计算,发现代码需要跑近一个小时,而且这一个小时都花在这四行代码上 心想着理论上可以只扫描一遍数据就可以计算出这四个指标 一开始在freach函数中传递一个自定义评估函数,这个函数来统计上面四个指标,然后在函数里再使用全局变量TP,TN等 但 ...
分类:
其他好文 时间:
2017-04-14 22:14:09
阅读次数:
577
因为Spark是用Scala实现的,所以Spark天生支持Scala API。此外,还支持Java和Python API。以Spark 1.3版本号的Python API为例。其模块层级关系例如以下图所看到的: 从上图可知,pyspark是Python API的顶层package,它包括了几个重要的 ...
1.windows下载并安装Anaconda集成环境 https://www.continuum.io/downloads 2.在控制台中测试ipython是否启动正常 3.安装JDK 3.1环境变量配置: 3.2测试: 4.安装Spark并配置环境变量 4.1 URL: http://spark. ...
分类:
其他好文 时间:
2017-04-05 09:37:00
阅读次数:
373
python3.6不支持pyspark, 好在用的是Anaconda这种神器,可以随意切换python版本。因为我的Spark是1.6的,所以python2.7应该是可以的。 首先 { "display_name": "PySpark", "language": "python", "argv": ...
分类:
其他好文 时间:
2017-03-31 16:33:28
阅读次数:
2415
初识spark,需要对其API有熟悉的了解才能方便开发上层应用。本文用图形的方式直观表达相关API的工作特点,并提供了解新的API接口使用的方法。例子代码全部使用python实现。 1. 数据源准备 准备输入文件: 启动pyspark: 使用textFile创建RDD: 查看RDD分区与数据: 2. ...
一.环境介绍: 1.安装jdk 7以上 2.python 2.7.11 3.IDE pycharm 4.package: spark-1.6.0-bin-hadoop2.6.tar.gz 二.Setup 1.解压spark-1.6.0-bin-hadoop2.6.tar.gz 到目录D:\spark ...
分类:
编程语言 时间:
2017-03-03 19:19:52
阅读次数:
3238
文件import问题 问题: 在脚本中import了其他文件, pyspark中可以运行, 但是在spark-submit中总是失败 假定我们的任务脚本为 app.py , 大体代码像这样: from pyspark import SparkContext ## 加载通用脚本 import comm ...
分类:
其他好文 时间:
2016-12-17 13:35:56
阅读次数:
1708
jetbrains系列的IDE真的是太好用了,有种相见恨晚的感觉。 在开发过程中第三方库是必不可少的,在开发的时候如果有一个可以补全的IDE可以节省查文档的时间。 举个例子:给pycharm配pyspark的环境变量,并且设置代码补全。最终结果应该是这样的: 首先配置的是第三方库的编译(解释)支持, ...
分类:
其他好文 时间:
2016-12-13 15:58:54
阅读次数:
292
如果是从pysparkshell里面进去,此时已经有了pyspark环境了,所以要加一个:sc.stop() from pyspark import SparkContext, SparkConfsc.stop()conf = SparkConf()conf.setAppName('zhangb') ...
分类:
其他好文 时间:
2016-11-29 19:04:45
阅读次数:
896
在Ubuntu下,安装ipython很简单: $sudo apt-get install ipython 在bash env中添加变量: 再次使用,已经是ipython了! ...
分类:
编程语言 时间:
2016-11-05 20:40:23
阅读次数:
237