搜索关键字：shuffle过程，搜索到94个结果！码迷,mamicode.com！

MapReduce去重

一：背景很多数据源中的数据都是含有大量重复的，为此我们需要将重复的数据去掉，这也称为数据的清洗，MapReduce从Map端到Reduce端的Shuffle过程天生就有去重的功能，但是这是对输出的Key作为参照进行去重的。所以我们可以将Map端读入Value作为Key输出，就可以很方便的实现去重了

分类：其他好文时间：2016-01-31 21:10:24 阅读次数：213

Spark SQL性能优化

1、设置Shuffle过程中的并行度：spark.sql.shuffle.partitions（SQLContext.setConf()）2、在Hive数据仓库建设过程中，合理设置数据类型，比如能设置为INT的，就不要设置为BIGINT。减少数据类型导致的不必要的内存开销。3、编写SQL时，尽量给出...

分类：数据库时间：2016-01-14 06:15:31 阅读次数：230

MapReduce TopK问题实际应用

一：背景TopK问题应该是海量数据处理中应用最广泛的了，比如在海量日志数据处理中，对数据清洗完成之后统计某日访问网站次数最多的前K个IP。这个问题的实现方式并不难，我们完全可以利用MapReduce的Shuffle过程实现排序，然后在Reduce端进行简单的个数判断输出即可。这里还涉及到二次排序，不...

分类：其他好文时间：2015-12-15 14:08:01 阅读次数：216

MapReduce Shuffle过程详解

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce，Shuffle是必须要了解的。我看过很多相关方面的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越乱。前端时间在做MapReduce job性能调优的工作，需要深入代码研究MapRedu...

分类：其他好文时间：2015-12-15 12:17:54 阅读次数：192

【转】mapreduce的shuffle过程

转自http://langyu.iteye.com/blog/992916 Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在...

分类：其他好文时间：2015-12-14 01:19:04 阅读次数：257

Shuffle对MapReduce性能调优

Shuffle对MapReduce性能调优： Shuffle和排序 MapReduce确保每一个reduce的输出都按键排序，系统执行排序的过程---------将map输出作为输入传给reduce--------称为shuffle Shuffle过程是MapReduce的”心脏”，也被...

分类：其他好文时间：2015-11-09 02:01:31 阅读次数：274

hadoop学习WordCount+Block+Split+Shuffle+Map+Reduce技术详解

转自：http://blog.csdn.net/yczws1/article/details/21899007纯干货：通过WourdCount程序示例：详细讲解MapReduce之Block+Split+Shuffle+Map+Reduce的区别及数据处理流程。 Shuffle过程是MapReduc...

分类：其他好文时间：2015-11-06 17:38:40 阅读次数：433

详解shuffle过程（转载）

http://langyu.iteye.com/blog/992916shuffle本意是洗牌的意思。在mapreduce中描述的是怎么将map task 的输出结果有效的传送到reduce task端。在Hadoop这样的集群环境中，大部分map task与reduce task的执行是在不同的节...

分类：其他好文时间：2015-11-03 00:35:43 阅读次数：192

Hadoop学习之shuffle过程

转自：http://langyu.iteye.com/blog/992916，多谢分享，学习Hadopp性能调优的可以多关注一下Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方，Shuffle的正常意思是洗牌或弄乱，可能大家更熟悉的是Java API里的Collections.s...

分类：其他好文时间：2015-11-01 22:44:21 阅读次数：274

Apache Spark-1.0.0浅析（十一）：Shuffle过程

一、Shuffle的产生Shuffle Dependency是划分stages的依据，由此判断是ShuffleMapStage或ResultStage，正如下所述* A Spark job consists of one or more stages. The very last stage in ...

分类：Web程序时间：2015-10-22 21:25:34 阅读次数：308

共94条上一页 1 ... 5 6 7 8 9 10 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)