码迷,mamicode.com
首页 >  
搜索关键字:reducer    ( 450个结果
MapReduce 1.x 编程 系列三 Reduce阶段实现
Reduce代码就是做加和统计,package org.freebird.reducer; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.mapreduce.Reducer.Context; import org.apache.hadoop.mapredu...
分类:其他好文   时间:2014-09-26 02:02:58    阅读次数:146
spark参数调优
spark对内存有一定的要求,内存不够会因为gc而oom。 1、默认情况下,一个worker的内存0.6用于cache,0.4用于task,可以通过设置该值提高每个worker的cache大小 spark.storage.memoryFraction   0.8 2、设置并行task数,提高reducer效率 spark.default.parallelism     4 这个在1....
分类:其他好文   时间:2014-09-03 21:21:47    阅读次数:338
hadoop data join
概念:Hadoop有一个叫DataJoin的包为Data Join提供相应的框架。它的Jar包存在于contrib/datajoin/hadoop-*-datajoin。为区别于其他的data join技术,我们称其为reduce-side join。(因为我们在reducer上作大多数的工作)re...
分类:其他好文   时间:2014-08-27 14:35:47    阅读次数:213
MapReduce流程、如何统计任务数目以及Partitioner
核心功能描述 应用程序通常会通过提供map和reduce来实现Mapper和Reducer接口,它们组成作业的核心。 Map是一类将输入记录集转换为中间格式记录集的独立任务。 这种转换的中间格式记录集不需要与输入记录集的类型一致。一个给定的输入键值对可以映射成0个或多个输出键值对。Hadoop .....
分类:其他好文   时间:2014-08-21 18:40:34    阅读次数:756
Hadoop Streaming总结
原理:Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer。Mapper和Reducer都是可执行文件,它们从标准输入读入数据(一行一行读), 并把计算结果发给标准输出。Streaming工具会创建一个Map/Re...
分类:其他好文   时间:2014-08-20 16:16:52    阅读次数:234
Hive基础之各种排序的区别
order by1、order by会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局排序); 只有一个reducer会导致当输入规模较大时,需要较长的计算时间,速度很非常慢;2、hive.mapred.mode(默认值是nonstrict)对order by的影响 .....
分类:其他好文   时间:2014-08-13 21:48:17    阅读次数:481
FIR on Hadoop using hadoop-streaming
Prepare Hadoop Streaming Hadoop streaming allows you to create and run Map/Reduce jobs with any executable or script as the mapper and/or the reducer....
分类:其他好文   时间:2014-08-05 13:47:29    阅读次数:426
二次排序
工作原理:使用如下map和reduce:(特别注意输入输出类型, 其中IntPair为自定义类型)public static class Map extends Mapperpublic static class Reduce extends Reducer 在map阶段,使用job.setInpu...
分类:其他好文   时间:2014-08-03 12:36:55    阅读次数:240
Hadoop 2.4.1 Map/Reduce小结
看了下MapReduce的例子。再看了下Mapper和Reducer源码,理清了参数的意义,就o了。public class Mapperpublic class Reducer Map是打散过程,把输入的数据,拆分成若干的键值对。Reduce是重组的,根据前面的键值对,重组数据。 自己写M...
分类:其他好文   时间:2014-08-01 15:34:21    阅读次数:205
hive中order by,distribute by,sort by,cluster by
order by,distribute by,sort by,cluster by ?查询使用说明 // 根据年份和气温对气象数据进行排序,以确保所有具有相同年份的行最终都在一个reducer分区中 // 一个reduce(海量数据,速度很慢) select year, te...
分类:其他好文   时间:2014-07-30 21:00:44    阅读次数:198
450条   上一页 1 ... 42 43 44 45 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!