1、代码中尽量避免group by函数,如果需要数据聚合,group形式的为rdd.map(x=>(x.chatAt(0),x)).groupbyKey().mapValues((x=>x.toSet.size)).collection() 改为 rdd.map(x=>(x.chatAt(0),x) ...
分类:
其他好文 时间:
2016-11-14 07:45:30
阅读次数:
462
一、Spark Streaming 1. 什么是Spark Shuffle Wide Dependencies *ByKey: groupByKey,reduceByKey 关联操作:join,cogroup 窄依赖: 父RDD的每个分区的数据,仅仅只会给子RDD的一个分区。 Spark性能优化: ...
分类:
其他好文 时间:
2016-10-22 14:31:48
阅读次数:
270
原文链接:http://tech.meituan.com/spark-tuning-pro.html 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据 ...
分类:
其他好文 时间:
2016-09-17 16:10:58
阅读次数:
126
广播变量 背景 一般Task大小超过10K时(Spark官方建议是20K),需要考虑使用广播变量进行优化。大表小表Join,小表使用广播的方式,减少Join操作。 参考:Spark广播变量与累加器 Local Dir 背景 shuffle过程中,临时数据需要写入本地磁盘。本地磁盘的临时目录通过参数s ...
分类:
其他好文 时间:
2016-07-15 20:30:04
阅读次数:
169
Spark tungsten 项目阅读笔记 Spark tungsten 项目的宣言就是:Bringing Apache Spark closer Bare Metal。 我的理解就是不要让硬件成为Spark性能的瓶颈,无限充分利用硬件资源(CPU,内存,IO,网络)。 tungsten主要有3大动 ...
分类:
其他好文 时间:
2016-07-12 01:29:19
阅读次数:
155
本文转自:http://tech.meituan.com/spark-tuning-pro.html 感谢原作者 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能 ...
分类:
其他好文 时间:
2016-07-04 23:45:10
阅读次数:
248
前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团?大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学 ...
分类:
其他好文 时间:
2016-07-04 23:33:15
阅读次数:
330
前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团?大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学 ...
分类:
其他好文 时间:
2016-07-01 20:07:49
阅读次数:
148
前言
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团?大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速...
分类:
其他好文 时间:
2016-06-30 07:34:17
阅读次数:
255
本文要解决的问题:从更深层次考虑,对Spark进行性能调优。目的继基础篇分析了开发调优与资源调优之后,本文作为拓展篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优简述有时候,大家可能会遇到大数据开发过程中一个比较棘手的问题,那就是数据倾斜,此时Spark作业的性能会比预期差很多,数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的...
分类:
其他好文 时间:
2016-06-21 07:51:41
阅读次数:
233