码迷,mamicode.com
首页 >  
搜索关键字:shuffle    ( 976个结果
spark内核揭秘-14-Spark性能优化的10大问题及其解决方案
Spark性能优化的10大问题及其解决方案 Spark性能优化的10大问题及其解决方案 Spark性能优化的10大问题及其解决方案 Spark性能优化的10大问题及其解决方案...
分类:其他好文   时间:2015-01-22 11:10:02    阅读次数:149
mt_rand()函数、str_shuffle() 函数、join() 函数
mt_rand() 使用 Mersenne Twister 算法返回随机整数。语法mt_rand(min,max)定义和用法str_shuffle() 函数随机地打乱字符串中的所有字符。语法str_shuffle(string)array_merge() 函数把两个或多个数组合并为一个数组。定义和用...
分类:其他好文   时间:2015-01-21 19:49:16    阅读次数:251
Spark技术内幕:Storage 模块整体架构
Storage模块负责了Spark计算过程中所有的存储,包括基于Disk的和基于Memory的。用户在实际编程中,面对的是RDD,可以将RDD的数据通过调用org.apache.spark.rdd.RDD#cache将数据持久化;持久化的动作都是由Storage模块完成的。包括Shuffle过程中的数据,也都是由Storage模块管理的。可以说,RDD实现了用户的逻辑,而Storage则管理了用户...
分类:其他好文   时间:2015-01-18 19:47:34    阅读次数:226
Spark技术内幕:Shuffle的性能调优
通过上面的架构和源码实现的分析,不难得出Shuffle是Spark Core比较复杂的模块的结论。它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释过它的含义,由于这些参数的确是非常重要,这里算是做一个详细的总结。1.1.1  spark.shuffle.manager前文也多次提到过,Spark1.2.0官方支持两种方式的Shuf...
分类:其他好文   时间:2015-01-18 19:46:55    阅读次数:1000
Hadoop2.4.1 MapReduce通过Map端shuffle(Combiner)完成数据去重
package com.bank.service;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.ap...
分类:其他好文   时间:2015-01-17 06:22:03    阅读次数:307
(简单) POJ 3087 Shuffle'm Up,枚举。
Description A common pastime for poker players at a poker table is to shuffle stacks of chips. Shuffling chips is performed by starting with two st...
分类:其他好文   时间:2015-01-16 23:40:54    阅读次数:326
Checkpoint
应用的场景 1)DAG中Lineage过长,如果要重新计算的,则开销会很大(如在PageRank中)。 2)在Shuffle Dependency上采用Lineage的话,由于子RDD分区中的一个分区可能依赖于父RDD的中所有分区,所以需要对父RDD中的每个区进行计算,因为在子RDD中有可能其它分区也依赖于父RDD中的多个分区,这样就会造成很大的冗余计算开销。 传统方式 在RDD计算中,通...
分类:其他好文   时间:2015-01-13 23:26:27    阅读次数:484
Spark技术内幕:Shuffle Read的整体流程
本文详细讲解Shuffle Read的整个过程,包括如何获得Block的元数据信息,进行网络,本地读取。通过一个整体的流程架构图,详细大家可以对整个过程有一个更加深刻的把握...
分类:其他好文   时间:2015-01-12 09:19:08    阅读次数:197
Spark技术内幕:Shuffle Map Task运算结果的处理
Shuffle Map Task运算结果的处理这个结果的处理,分为两部分,一个是在Executor端是如何直接处理Task的结果的;还有就是Driver端,如果在接到Task运行结束的消息时,如何对Shuffle Write的结果进行处理,从而在调度下游的Task时,下游的Task可以得到其需要的数据。Executor端的处理在解析BasicShuffle Writer时,我们知道ShuffleM...
分类:其他好文   时间:2015-01-12 08:09:30    阅读次数:205
Spark技术内幕: 如何解决Shuffle Write一定要落盘的问题?
在Spark 0.6和0.7时,Shuffle的结果都需要先存储到内存中(有可能要写入磁盘),因此对于大数据量的情况下,发生GC和OOM的概率非常大。因此在Spark 0.8的时候,Shuffle的每个record都会直接写入磁盘。一直到1.2.0,Shuffle的数据是一定会写入本地文件系统的,那么对于性能要求非常苛刻的用户,如何获得更好的性能呢?...
分类:其他好文   时间:2015-01-11 16:18:22    阅读次数:149
976条   上一页 1 ... 87 88 89 90 91 ... 98 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!