1 Tutorial Spark本身是由scala语言编写,为了支持py对spark的支持呢就出现了pyspark。它依然可以通过导入Py4j进行RDDS等操作。 2 sparkContext (1)sparkContext是spark运用的入口点,当我们运行spark的时候,驱动启动同时上下文也开 ...
分类:
其他好文 时间:
2018-04-03 10:59:10
阅读次数:
2454
前提: 1.已经安装好spark。我的是spark2.2.0。 2.已经有python环境,我这边使用的是python3.6。 一、安装py4j 使用pip,运行如下命令: 使用conda,运行如下命令: 二、使用pycharm创建一个project。 创建过程中选择python的环境。进入之后点击 ...
分类:
系统相关 时间:
2017-12-18 01:24:34
阅读次数:
370
notebook方式运行spark程序是一种比较agile的方式,一方面可以体验像spark shell那样repl的便捷,同时可以借助notebook的作图能力实现快速数据可视化,非常方便快速验证和demo。notebook有两种选择,一种是ipython notebook,主要针对pyspark ...
分类:
其他好文 时间:
2017-12-16 14:52:04
阅读次数:
1934
目录 决策树原理 决策树代码(Spark Python) 决策树原理 详见博文:http://www.cnblogs.com/itmorn/p/7918797.html 返回目录 决策树代码(Spark Python) 代码里数据:https://pan.baidu.com/s/1jHWKG4I 密 ...
分类:
编程语言 时间:
2017-12-11 22:11:47
阅读次数:
845
python pyspark入门篇 一.环境介绍: 1.安装jdk 7以上 2.python 2.7.11 3.IDE pycharm 4.package: spark-1.6.0-bin-hadoop2.6.tar.gz 二.Setup 1.解压spark-1.6.0-bin-hadoop2.6. ...
分类:
编程语言 时间:
2017-12-11 18:42:56
阅读次数:
168
from pyspark import SparkConf, SparkContextconf = SparkConf().setMaster("local").setAppName("My App")sc = SparkContext(conf = conf) pyspark的初始化,也就是入口, ...
分类:
其他好文 时间:
2017-12-05 12:02:49
阅读次数:
152
摘要:在Spark开发中,由于需要用Python实现,发现API与Scala的略有不同,而Python API的中文资料相对很少。每次去查英文版API的说明相对比较慢,还是中文版比较容易get到所需,所以利用闲暇之余将官方文档翻译为中文版,并亲测Demo的代码。在此记录一下,希望对那些对Spark感 ...
分类:
数据库 时间:
2017-11-04 21:39:54
阅读次数:
207
Part I:词频统计并返回topN 统计的文本数据: Part II:调用排序算法并返回topN 样本数据 numbers_data.txt: 注:若出现并列时,返回多个并列的数 ...
分类:
其他好文 时间:
2017-10-31 18:49:11
阅读次数:
197
网上用python写spark+kafka的资料好少啊 自己记录一点踩到的坑~ spark+kafka介绍的官方网址:http://spark.apache.org/docs/latest/streaming-kafka-0-8-integration.html python的pyspark库函数文 ...
分类:
编程语言 时间:
2017-10-31 17:35:05
阅读次数:
358
from pyspark import SparkContext from pyspark import SparkConf string_test = 'pyspark_test' conf = SparkConf().setAppName(string_test).setMaster('yarn ...
分类:
编程语言 时间:
2017-10-30 19:41:16
阅读次数:
297