码迷,mamicode.com
首页 >  
搜索关键字:spark性能    ( 94个结果
Spark性能测试报告与调优参数
1、代码中尽量避免group by函数,如果需要数据聚合,group形式的为rdd.map(x=>(x.chatAt(0),x)).groupbyKey().mapValues((x=>x.toSet.size)).collection() 改为 rdd.map(x=>(x.chatAt(0),x) ...
分类:其他好文   时间:2016-11-14 07:45:30    阅读次数:462
《OD学Spark》20161022
一、Spark Streaming 1. 什么是Spark Shuffle Wide Dependencies *ByKey: groupByKey,reduceByKey 关联操作:join,cogroup 窄依赖: 父RDD的每个分区的数据,仅仅只会给子RDD的一个分区。 Spark性能优化: ...
分类:其他好文   时间:2016-10-22 14:31:48    阅读次数:270
Spark性能优化指南——高级篇
原文链接:http://tech.meituan.com/spark-tuning-pro.html 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据 ...
分类:其他好文   时间:2016-09-17 16:10:58    阅读次数:126
Spark性能优化(2)——广播变量、本地缓存目录、RDD操作、数据倾斜
广播变量 背景 一般Task大小超过10K时(Spark官方建议是20K),需要考虑使用广播变量进行优化。大表小表Join,小表使用广播的方式,减少Join操作。 参考:Spark广播变量与累加器 Local Dir 背景 shuffle过程中,临时数据需要写入本地磁盘。本地磁盘的临时目录通过参数s ...
分类:其他好文   时间:2016-07-15 20:30:04    阅读次数:169
Spark tungsten 项目阅读笔记
Spark tungsten 项目阅读笔记 Spark tungsten 项目的宣言就是:Bringing Apache Spark closer Bare Metal。 我的理解就是不要让硬件成为Spark性能的瓶颈,无限充分利用硬件资源(CPU,内存,IO,网络)。 tungsten主要有3大动 ...
分类:其他好文   时间:2016-07-12 01:29:19    阅读次数:155
Spark性能优化指南——高级篇
本文转自:http://tech.meituan.com/spark-tuning-pro.html 感谢原作者 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能 ...
分类:其他好文   时间:2016-07-04 23:45:10    阅读次数:248
Spark性能优化指南——基础篇
前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团?大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学 ...
分类:其他好文   时间:2016-07-04 23:33:15    阅读次数:330
Spark性能优化指南——基础篇转
前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团?大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学 ...
分类:其他好文   时间:2016-07-01 20:07:49    阅读次数:148
美团Spark性能优化指南——基础篇
前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团?大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速...
分类:其他好文   时间:2016-06-30 07:34:17    阅读次数:255
Spark性能调优——扩展篇
本文要解决的问题:从更深层次考虑,对Spark进行性能调优。目的继基础篇分析了开发调优与资源调优之后,本文作为拓展篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优简述有时候,大家可能会遇到大数据开发过程中一个比较棘手的问题,那就是数据倾斜,此时Spark作业的性能会比预期差很多,数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的...
分类:其他好文   时间:2016-06-21 07:51:41    阅读次数:233
94条   上一页 1 ... 5 6 7 8 9 10 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!