搜索关键字：map-reduce，搜索到649个结果！码迷,mamicode.com！

在AWS EMR上运行Map Reduce的Java示例程序及操作小计

下面的代码中AffairClient类中包含了三个内之类，分别对应于Hadoop Mapreduce程序运行所需的Mapper类，Reducer类，和主类。AffairClient类中其余方法用于配置和运行EMR程序。可以修改相关参数来对程序做适当调整。比如：修改map和reduce函数，添加com...

分类：编程语言时间：2015-10-16 11:41:20 阅读次数：392

Hive数据倾斜

map/reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多（有时是百倍或者千倍之多），这条key所在的reduce节点所处理的数据量比其他节点就大很多，从而导致某几个节点迟迟运行...

分类：其他好文时间：2015-10-04 23:29:09 阅读次数：1131

MapReduce核心map reduce shuffle （spill sort partition merge）详解

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。Shuffle的正常意思是洗牌或弄乱，可能大家更熟悉的是Java API里Collections.shuffle(List)方法，它会随机地打乱参数list里的元素顺序。如果你不知道MapReduce里 Shuffle是..

分类：其他好文时间：2015-09-23 01:22:25 阅读次数：262

[Hadoop] - Mapreduce自定义Counter

在Hadoop的MR程序开发中，经常需要统计一些map/reduce的运行状态信息，这个时候我们可以通过自定义Counter来实现，这个实现的方式是不是通过配置信息完成的，而是通过代码运行时检查完成的。 1、创建一个自己的Counter枚举类。enum PROCESS_COUNTER { ...

分类：其他好文时间：2015-09-22 18:51:35 阅读次数：244

两款高性能并行计算引擎Storm和Spark比较

Spark基于这样的理念，当数据庞大时，把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储（或缓存）它的数据集，然后任务被提交给节点。所以这是把过程传递给数据。这和Hadoop?map/reduce非...

分类：其他好文时间：2015-09-18 12:13:31 阅读次数：128

Hadoop(六)——子项目Pig

前边，讲述了Hadoop的两大支柱HDFS和MapReduce，我们通过将大数据的数据文件放在HDFS上，利用Java编写Map-Reduce,来实现数据的各种分析，并预测一些东西，实现大数据的商业价值，从而也体现了Hadoop价值所在。但是反观传统系统中，我们都是通过数据库进行数据分析的，例如关系型数据库：Oracle,SQL Server,mysql等，更进一步的通过NO SQL数据...

分类：其他好文时间：2015-09-16 00:55:51 阅读次数：276

Scala 深入浅出实战经典第93讲：Akka第一个案例动手实战开发消息实体类

构建map,reduce之间通讯的消息实体类。了解wordcount原理。DT大数据梦工厂微信公众账号：DT_Spark。DT大数据梦工厂的微信公众号是DT_Spark，每天都会有大数据实战视频发布，请您持续学习。王家林DT大数据梦工厂scala的所有视频、PPT和代码在百度云盘的链接:http://pan.baidu.co..

分类：其他好文时间：2015-09-12 00:54:46 阅读次数：268

Spark入门实战系列--7.Spark Streaming（下）--Spark Streaming实战

Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从数据源获取数据之后，可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统，数据库和现场仪表盘。...

分类：其他好文时间：2015-09-10 11:10:49 阅读次数：212

Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming介绍

Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从数据源获取数据之后，可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统，数据库和现场仪表盘。...

分类：其他好文时间：2015-09-10 11:10:31 阅读次数：169

[RxJS] Stream Processing With RxJS vs Array Higher-Order Functions

Higher order Array functions such as filter, map and reduce are great for functional programming, but they can incur performance problems.var ary = [1...

分类：Web程序时间：2015-09-07 19:31:19 阅读次数：256