码迷,mamicode.com
首页 >  
搜索关键字:mapreduce partitioner    ( 4100个结果
Hadoop-2.2.0中文文档—— MapReduce下一代- 可插入的 Shuffle 和 Sort
简介 可插入的 shuffle 和 sort 功能,允许在shuffle 和 sort 逻辑中用可选择的实现类替换。这个情况的例子是:用一个不是HTTP的应用协议,如RDMA来 shuffle 从Map节点中到Reducer节点的数据;或者用自定义的允许 Hash聚合和Limit-N查询的算法来代替sort逻辑。 重要: 可插入的 shuffle  sort 功能是实验性的、不稳定。这意味着提...
分类:其他好文   时间:2014-05-15 13:25:05    阅读次数:233
Hadoop MapReduce链式实践--ChainReducer
版本:CDH5.0.0,HDFS:2.3.0,Mapreduce:2.3.0,Yarn:2.3.0。场景描述:求一组数据中按照不同类别的最大值,比如,如下的数据:data1:A,10 A,11 A,12 A,13 B,21 B,31 B,41 B,51data2:A,20 A,21 A,22 A,23 B,201 B,301 B,401 B,501最后输出为:A,23 B,501假如这样的逻辑的m...
分类:其他好文   时间:2014-05-15 08:15:04    阅读次数:374
Hadoop-2.2.0中文文档—— MapReduce 下一代 - Encrypted Shuffle
简介  Encrypted Shuffle capability (加密洗牌功能?)允许用HTTPS 和 可选的客户端验证 (也称作双向的 HTTPS, 或有客户端证书的 HTTPS) 去加密 MapReduce shuffle.它包括: 在HTTP 和 HTTPS 之间绑定 shuffle 的一个 Hadoop 配置用来指定 keystore 和 truststore 属性的Hado...
分类:其他好文   时间:2014-05-15 04:59:35    阅读次数:301
hadoop学习;自定义Input/OutputFormat;类引用mapreduce.mapper;三种模式
hadoop分割与读取输入文件的方式被定义在InputFormat接口的一个实现中,TextInputFormat是默认的实现,当你想要一次获取一行内容作为输入数据时又没有确定的键,从TextInputFormat返回的键为每行的字节偏移量,但目前没看到用过 以前在mapper中曾使用LongWritable(键)和Text(值),在TextInputFormat中,因为键是字节偏移量,可以是L...
分类:移动开发   时间:2014-05-15 01:31:37    阅读次数:454
MapReduce编程实战之“高级特性”
本篇介绍MapReduce的一些高级特性,如计数器、数据集的排序和连接。计数器是一种收集作业统计信息的有效手段,排序是MapReduce的核心技术,MapReduce也能够执行大型数据集间的“”连接(join)操作。...
分类:其他好文   时间:2014-05-14 23:53:44    阅读次数:553
hadoop-mapreduce中reducetask运行分析
ReduceTask的运行 Reduce处理程序中需要执行三个类型的处理, 1.copy,从各map中copy数据过来 2.sort,对数据进行排序操作。 3.reduce,执行业务逻辑的处理。 ReduceTask的运行也是通过run方法开始, 通过mapreduce.job.reduce.shuffle.consumer.plugin.class配置shuffle的plugin, ...
分类:其他好文   时间:2014-05-14 20:23:57    阅读次数:519
hadoop-mapreduce中maptask运行分析
MapTask运行通过执行.run方法: 1.生成TaskAttemptContextImpl实例,此实例中的Configuration就是job本身。 2.得到用户定义的Mapper实现类,也就是map函数的类。 3.得到InputFormat实现类。 4.得到当前task对应的InputSplit. 5.通过InputFormat,得到对应的RecordReader。 6.生成Re...
分类:其他好文   时间:2014-05-14 14:31:59    阅读次数:381
Hadoop-2.2.0中文文档—— 从Hadoop 1.x 迁移至 Hadoop 2.x
简介 本文档对从 Apache Hadoop 1.x 迁移他们的Apache Hadoop MapReduce 应用到 Apache Hadoop 2.x 的用户提供了一些信息。 在 Apache Hadoop 2.x 中,我们已经把资源管理功能放入 分布式应用管理框架 的Apache Hadoop YARN,而 Apache Hadoop MapReduce (亦称 MRv2) 保持...
分类:其他好文   时间:2014-05-14 00:55:11    阅读次数:294
海量数据解决思路之Hash算法
一、概述本文将粗略讲述一下Hash算法的概念特性,里边会结合分布式系统负载均衡实例对Hash的一致性做深入探讨。另外,探讨一下Hash算法在海量数据处理方案中的通用性。最后,从源代码出发,具体分析一下Hash算法在MapReduce框架的中的应用。二、Hash算法Hash可以通过散列函数将..
分类:其他好文   时间:2014-05-13 01:34:11    阅读次数:421
MapReduce_去重抽取mdn_imsi
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import...
分类:其他好文   时间:2014-05-12 19:55:27    阅读次数:326
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!