标签:推荐 disk 分析 manage creat 测试数据 直接 保存 min
spark面试问题
1、spark中的RDD是什么,有哪些特性
2、概述一下spark中的常用算子区别(map、mapPartitions、foreach、foreachPartition)
3、简述reduceByKey和groupByKey区别
4、yarn-cluster和yarn-client的区别
5、谈谈spark中的宽窄依赖
6、spark中如何划分stage
7、spark-submit的时候如何引入外部jar包
8、spark 如何防止内存溢出
9、spark中cache和persist的区别
10、简要描述Spark分布式集群搭建的步骤
11、spark中的数据倾斜的现象、原因、后果
12、如何解决spark中的数据倾斜问题
13、flume整合sparkStreaming问题
14、kafka整合sparkStreaming问题
标签:推荐 disk 分析 manage creat 测试数据 直接 保存 min
原文地址:https://www.cnblogs.com/alexzhang92/p/11094586.html