标签:使用 ado spark combine 磁盘 准备 合并 排序 cache
面试公司: 一家中小型电商
面试中的问题:
思路不要太跳跃性, 不然容易尬。
引导的时候脑子需要快速运转该说什么。
自己熟的那块一定要准备充分答出百分之80以上。
排序算法, 选一个说: 建议快排, 归并, 面试前手写一下找找感觉。
挖坑桶排: 需要对难点做准备: 按照什么条件分桶? 空间利用率的优化等。
我下次打算挖坑下计排看看。
Spark Core -> RDD -> 分类 -> 资源调度 -> Spark On Yarn
小文件处理:
SparkStreaming
Batch Processing Time
)大于批次间隔(Batch Interval,即 BatchDuration
)时,说明处理数据的速度小于数据摄入的速度,持续时间过长或源头数据暴增,容易造成数据在内存中堆积,最终导致Executor OOM或任务奔溃。SparkSQL
机器学习:
标签:使用 ado spark combine 磁盘 准备 合并 排序 cache
原文地址:https://www.cnblogs.com/ronnieyuan/p/12127159.html