Spark Core面试篇01 随着Spark技术在企业中应用越来越广泛,Spark成为大数据开发必须掌握的技能。前期分享了很多关于Spark的学习视频和文章,为了进一步巩固和掌握Spark,在原有spark专刊基础上,新增《Spark面试2000题》专刊,题集包含基础概念、原理、编码开发、性能调优 ...
分类:
其他好文 时间:
2018-10-21 22:57:15
阅读次数:
1920
1、交叉表(crosstab): pandas中也有,常和pivot_table比较。 查看家庭ID与评分的交叉表: 2、处理缺失值:fillna withColumn:新增一列数据 cast : 用于将某种数据类型的表达式显式转换为另一种数据类型 将缺失值删除:dropna 3、处理重复值 查看有 ...
分类:
其他好文 时间:
2018-10-11 14:26:50
阅读次数:
566
1、读取: sparkDF = spark.read.csv(path) sparkDF = spark.read.text(path) 2、打印: sparkDF.show()【这是pandas中没有的】:打印内容 sparkDF.head():打印前面的内容 sparkDF.describe() ...
分类:
其他好文 时间:
2018-10-11 13:38:40
阅读次数:
283
1、启动spark 2、建立RDD: 3、从text中读取,read.text 4、从csv中读取:read.csv 5、从json中读取:read.json 7、RDD与Dataframe的转换 (1)dataframe转换成rdd: 法一:datardd = dataDataframe.rdd ...
分类:
其他好文 时间:
2018-10-09 13:29:00
阅读次数:
1860
spark-shell/spark-submit/pyspark等关系如下: ...
分类:
其他好文 时间:
2018-09-29 13:00:58
阅读次数:
162
即将发布的 Apache Spark 2.4 版本是 2.x 系列的第五个版本。 本文对 Apache Spark 2.4 的主要功能和增强功能进行了概述。 新的调度模型(Barrier Scheduling),使用户能够将分布式深度学习训练恰当地嵌入到 Spark 的 stage 中,以简化分布... ...
分类:
Web程序 时间:
2018-09-28 14:43:45
阅读次数:
245
安装需要如下东西: java "jdk 8u181 windows x64.exe" spark "spark 2.1.3 bin hadoop2.7" hadoop(版本要与spark的一致,这里都是hadoop2.7) "hadoop 2.7.7" Anaconda(这个是为了预防python出 ...
写好对文件流的监听脚本 执行ssc.start() 时报错显示: An error occurred while calling z:org.apache.spark.streaming.api.python.PythonDStream.callForeachRDD. 无法启动监听进程 在环境变量中 ...
分类:
其他好文 时间:
2018-09-27 16:58:53
阅读次数:
394
# -*- coding:utf-8 -*- from pyspark import SparkContext, SparkConf from pyspark.streaming import StreamingContext import math appName = "jhl_spark_1" ... ...
分类:
其他好文 时间:
2018-08-27 18:24:53
阅读次数:
304
这里的 pyspark 是spark安装的文件夹里python文件夹下的,需要复制到anoconda的Lib下site-packages中 代码中没有环境变量的配置,不愿意在本机配置环境变量的可以去查查spark在python中环境变量配置 ...
分类:
数据库 时间:
2018-08-27 18:24:00
阅读次数:
1603