码迷,mamicode.com
首页 >  
搜索关键字:pyspark    ( 164个结果
ModuleNotFoundError: No module named 'pyspark' 解决方案
出现问题的原因是在执行python xxx.py 时系统找不到相关资源 Windows中: 由于我的Windows中没有装Spark,所以直接安装了Python的第三方包,pycharm中直接引用就行了 pip install pyspark Linux中: 我的是Ubuntu18.04,自己在里面 ...
分类:其他好文   时间:2020-05-15 09:58:55    阅读次数:408
真香!PySpark整合Apache Hudi实战
1. 准备 Hudi支持Spark 2.x版本,你可以点击如下 "链接" 安装Spark,并使用pyspark启动 spark avro模块需要在 packages显示指定 spark avro和spark的版本必须匹配 本示例中,由于依赖spark avro_2.11,因此使用的是scala2.1 ...
分类:Web程序   时间:2020-05-10 17:37:32    阅读次数:124
PySpark之RDD操作
一、什么是RDD A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable, partitioned collection of elements that can b ...
分类:其他好文   时间:2020-03-29 17:56:53    阅读次数:80
python调用接口,python接收post请求接口(附完整代码)
与Scala语言相比,Python有其独特的优势和广泛的应用,python调用接口,因此Spark也推出了PySpark,它在框架上提供了一个使用Python语言的接口,python接收post请求接口为数据科学家使用框架提供了方便。 ...
分类:编程语言   时间:2020-03-29 01:41:51    阅读次数:92
Pyspark 提交任务遇到的问题
最近使用Pyspark的时候,遇到一些新的问题,希望记录下来,解决的我会补充。 1. WARN DomainSocketFactory: The short-circuit local reads feature cannot be used 2. pyspark TypeError: 'Pipel ...
分类:其他好文   时间:2020-03-28 20:14:18    阅读次数:198
资源 | 机器学习小抄
数据挖掘流程 source 此网址还提供了其他众多涉及数学科学的cheat sheet,非常推荐 算法的选择 source source source SIGAI算法地图 source: sklearn使用 source 此网页也提供了numpy,pandas, matplotlib,PySpark ...
分类:其他好文   时间:2020-03-21 17:49:48    阅读次数:79
pyspark读取textfile形成DataFrame以及查询表的属性信息
pyspark可用于读取textfile格式的hive表格。 1. 查看hive表的属性方法(在hive或者spark-sql命令行均可): 查询建表信息: show create table database_name.table_name; 查询表的属性信息 (可看到表的格式信息例如,Input ...
分类:其他好文   时间:2020-03-14 20:06:06    阅读次数:166
pyspark combineByKey的理解
combineByKey(createCombiner, mergeValue, mergeCombiners, numPartitions=None, partitionFunc=<function portable_hash at 0x7f1ac7340578>) 它是一个泛型函数,主要完成聚合 ...
分类:其他好文   时间:2020-03-03 12:45:59    阅读次数:89
pyspark错误记录1: Py4JJavaError
错误代码: 完整错误信息为: Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.hadoop.mapred.Inva ...
分类:编程语言   时间:2020-02-29 13:14:45    阅读次数:81
【2020/1/25】寒假自学——学习进度报告6
这篇准备尝试RDD的编程操作。 spark运行用户从文件系统中加载数据、通过并行集合(数组)创建RDD,两种都是很方便的操作方式。 应对实验,我在创建了一个文本文件。内容包括—— 之后就是尝试创建RDD。 在pyspark中使用—— >>> students=sc.textFile("file:// ...
分类:其他好文   时间:2020-01-27 20:40:27    阅读次数:78
164条   上一页 1 2 3 4 5 ... 17 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!