码迷,mamicode.com
首页 >  
搜索关键字:reducer    ( 450个结果
hadoop编程小技巧(9)---二次排序(值排序)
代码测试环境:Hadoop2.4应用场景:在Reducer端一般是key排序,而没有value排序,如果想对value进行排序,则可以使用此技巧。应用实例描述:比如针对下面的数据:a,5 b,7 c,2 c,9 a,3 a,1 b,10 b,3 c,1如果使用一般的MR的话,其输出可能是这样的:a 1 a 3 a 5 b 3 b 10 b 7 c 1 c 9 c 2从数据中可以看到其键是排序的,但...
分类:其他好文   时间:2014-07-30 17:29:34    阅读次数:358
mapreduce任务失败、重试、推测式执行机制小结
mapreduce中我们自定义的mapper和reducer程序在执行后有可能遇上出错退出的情况,mapreduce中jobtracker会全程追踪任务的执行情况,对于出错的任务mapreduce也定义了一套自己的处理方式。...
分类:其他好文   时间:2014-07-30 12:21:22    阅读次数:209
mapreduce学习总结(一)
1. mapper任务一般执行 输入格式解析、投影(选择相关的字段)、过滤(过滤掉无关记录)。reducer任务一般2. 对于map任务和ruduce任务,tasktracker有固定数量的任务槽。3. 分片(split)的大小一般就是文件块大小。map任务的数量取决于文件大小和块大小,不用刻意去设...
分类:其他好文   时间:2014-07-22 22:54:16    阅读次数:314
hadoop编程小技巧(3)---自定义分区类Partitioner
Hadoop代码测试环境:Hadoop2.4原理:在Hadoop的MapReduce过程中,Mapper读取处理完成数据后,会把数据发送到Partitioner,由Partitioner来决定每条记录应该送往哪个reducer节点,默认使用的是HashPartitioner,其核心代码如下:/** Use {@link Object#hashCode()} to partition. */ p...
分类:其他好文   时间:2014-07-17 15:06:56    阅读次数:315
Hadoop学习之Combiner
在Hadoop中,有一种处理过程叫Combiner,与Mapper和Reducer在处于同等地位,但其执行的时间介于Mapper和Reducer之间,其实就是Mapper和Reducer的中间处理过程,Mapper的输出是Combiner的输入,Combiner的输出是Reducer的输入。例如.....
分类:其他好文   时间:2014-07-16 20:36:31    阅读次数:185
Hadoop之MapReduce程序分析
摘要:Hadoop之MapReduce程序包括三个部分:Mapper,Reducer和作业执行。本文介绍和分析MapReduce程序三部分结构。...
分类:其他好文   时间:2014-06-20 12:32:07    阅读次数:197
Hadoop Streaming 编程
1、概述Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer)$HADOOP_HOME/bi...
分类:其他好文   时间:2014-06-19 06:10:13    阅读次数:345
Hadoop之MapReduce程序开发流程
摘要:MapReduce程序开发流程遵循算法思路、Mapper、Reducer、作业执行的步骤。...
分类:其他好文   时间:2014-06-07 13:42:08    阅读次数:242
hadoop学习;Streaming,aggregate;combiner
hadoop streaming允许我们使用任何可执行脚本来处理按行组织的数据流,数据取自UNIX的标准输入STDIN,并输出到STDOUT 通过设定mapper为‘RandomSample.py 10’,我们按十分之一的采样率,没有设定特殊的reducer,一般默认使用IdentityReducer(把输入直接转向输出) 通过HDFS的命令getMerge(输出合并)或其他文件操作,可以获得...
分类:其他好文   时间:2014-05-18 15:12:21    阅读次数:380
Hadoop-2.2.0中文文档—— MapReduce下一代- 可插入的 Shuffle 和 Sort
简介 可插入的 shuffle 和 sort 功能,允许在shuffle 和 sort 逻辑中用可选择的实现类替换。这个情况的例子是:用一个不是HTTP的应用协议,如RDMA来 shuffle 从Map节点中到Reducer节点的数据;或者用自定义的允许 Hash聚合和Limit-N查询的算法来代替sort逻辑。 重要: 可插入的 shuffle  sort 功能是实验性的、不稳定。这意味着提...
分类:其他好文   时间:2014-05-15 13:25:05    阅读次数:233
450条   上一页 1 ... 43 44 45
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!