码迷,mamicode.com
首页 >  
搜索关键字:map-reduce    ( 649个结果
在AWS EMR上运行Map Reduce的Java示例程序 及 操作小计
下面的代码中AffairClient类中包含了三个内之类,分别对应于Hadoop Mapreduce程序运行所需的Mapper类,Reducer类,和主类。AffairClient类中其余方法用于配置和运行EMR程序。可以修改相关参数来对程序做适当调整。比如:修改map和reduce函数,添加com...
分类:编程语言   时间:2015-10-16 11:41:20    阅读次数:392
Hive数据倾斜
map/reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行...
分类:其他好文   时间:2015-10-04 23:29:09    阅读次数:1131
MapReduce核心map reduce shuffle (spill sort partition merge)详解
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。Shuffle的正常意思是洗牌或弄乱,可能大家更熟悉的是Java API里Collections.shuffle(List)方法,它会随机地打乱参数list里的元素顺序。如果你不知道MapReduce里 Shuffle是..
分类:其他好文   时间:2015-09-23 01:22:25    阅读次数:262
[Hadoop] - Mapreduce自定义Counter
在Hadoop的MR程序开发中,经常需要统计一些map/reduce的运行状态信息,这个时候我们可以通过自定义Counter来实现,这个实现的方式是不是通过配置信息完成的,而是通过代码运行时检查完成的。 1、创建一个自己的Counter枚举类。enum PROCESS_COUNTER { ...
分类:其他好文   时间:2015-09-22 18:51:35    阅读次数:244
两款高性能并行计算引擎Storm和Spark比较
Spark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储(或缓存)它的数据集,然后任务被提交给节点。 所以这是把过程传递给数据。这和Hadoop?map/reduce非...
分类:其他好文   时间:2015-09-18 12:13:31    阅读次数:128
Hadoop(六)——子项目Pig
前边,讲述了Hadoop的两大支柱HDFS和MapReduce,我们通过将大数据的数据文件放在HDFS上,利用Java编写Map-Reduce,来实现数据的各种分析,并预测一些东西,实现大数据的商业价值,从而也体现了Hadoop价值所在。     但是反观传统系统中,我们都是通过数据库进行数据分析的,例如关系型数据库:Oracle,SQL Server,mysql等,更进一步的通过NO SQL数据...
分类:其他好文   时间:2015-09-16 00:55:51    阅读次数:276
Scala 深入浅出实战经典 第93讲:Akka第一个案例动手实战开发消息实体类
构建map,reduce之间通讯的消息实体类。了解wordcount原理。DT大数据梦工厂微信公众账号:DT_Spark。DT大数据梦工厂的微信公众号是DT_Spark,每天都会有大数据实战视频发布,请您持续学习。王家林DT大数据梦工厂scala的所有视频、PPT和代码在百度云盘的链接:http://pan.baidu.co..
分类:其他好文   时间:2015-09-12 00:54:46    阅读次数:268
Spark入门实战系列--7.Spark Streaming(下)--Spark Streaming实战
Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统,数据库和现场仪表盘。...
分类:其他好文   时间:2015-09-10 11:10:49    阅读次数:212
Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming介绍
Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统,数据库和现场仪表盘。...
分类:其他好文   时间:2015-09-10 11:10:31    阅读次数:169
[RxJS] Stream Processing With RxJS vs Array Higher-Order Functions
Higher order Array functions such as filter, map and reduce are great for functional programming, but they can incur performance problems.var ary = [1...
分类:Web程序   时间:2015-09-07 19:31:19    阅读次数:256
649条   上一页 1 ... 43 44 45 46 47 ... 65 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!