搜索关键字：reducer，搜索到450个结果！码迷,mamicode.com！

MapReduce 1.x 编程系列三 Reduce阶段实现

Reduce代码就是做加和统计，package org.freebird.reducer; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.mapreduce.Reducer.Context; import org.apache.hadoop.mapredu...

分类：其他好文时间：2014-09-26 02:02:58 阅读次数：146

spark参数调优

spark对内存有一定的要求，内存不够会因为gc而oom。 1、默认情况下，一个worker的内存0.6用于cache，0.4用于task，可以通过设置该值提高每个worker的cache大小 spark.storage.memoryFraction 0.8 2、设置并行task数，提高reducer效率 spark.default.parallelism 4 这个在1....

分类：其他好文时间：2014-09-03 21:21:47 阅读次数：338

hadoop data join

概念：Hadoop有一个叫DataJoin的包为Data Join提供相应的框架。它的Jar包存在于contrib/datajoin/hadoop-*-datajoin。为区别于其他的data join技术，我们称其为reduce-side join。（因为我们在reducer上作大多数的工作）re...

分类：其他好文时间：2014-08-27 14:35:47 阅读次数：213

MapReduce流程、如何统计任务数目以及Partitioner

核心功能描述应用程序通常会通过提供map和reduce来实现Mapper和Reducer接口，它们组成作业的核心。 Map是一类将输入记录集转换为中间格式记录集的独立任务。这种转换的中间格式记录集不需要与输入记录集的类型一致。一个给定的输入键值对可以映射成0个或多个输出键值对。Hadoop .....

分类：其他好文时间：2014-08-21 18:40:34 阅读次数：756

Hadoop Streaming总结

原理：Hadoop Streaming是Hadoop提供的一个编程工具，它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer。Mapper和Reducer都是可执行文件，它们从标准输入读入数据（一行一行读），并把计算结果发给标准输出。Streaming工具会创建一个Map/Re...

分类：其他好文时间：2014-08-20 16:16:52 阅读次数：234

Hive基础之各种排序的区别

order by1、order by会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局排序）；只有一个reducer会导致当输入规模较大时，需要较长的计算时间，速度很非常慢；2、hive.mapred.mode（默认值是nonstrict）对order by的影响 .....

分类：其他好文时间：2014-08-13 21:48:17 阅读次数：481

FIR on Hadoop using hadoop-streaming

Prepare Hadoop Streaming Hadoop streaming allows you to create and run Map/Reduce jobs with any executable or script as the mapper and/or the reducer....

分类：其他好文时间：2014-08-05 13:47:29 阅读次数：426

二次排序

工作原理：使用如下map和reduce：（特别注意输入输出类型，其中IntPair为自定义类型）public static class Map extends Mapperpublic static class Reduce extends Reducer 在map阶段，使用job.setInpu...

分类：其他好文时间：2014-08-03 12:36:55 阅读次数：240

Hadoop 2.4.1 Map/Reduce小结

看了下MapReduce的例子。再看了下Mapper和Reducer源码，理清了参数的意义，就o了。public class Mapperpublic class Reducer Map是打散过程，把输入的数据，拆分成若干的键值对。Reduce是重组的，根据前面的键值对，重组数据。自己写M...

分类：其他好文时间：2014-08-01 15:34:21 阅读次数：205

hive中order by,distribute by,sort by,cluster by

order by,distribute by,sort by,cluster by ?查询使用说明 // 根据年份和气温对气象数据进行排序，以确保所有具有相同年份的行最终都在一个reducer分区中 // 一个reduce(海量数据,速度很慢) select year, te...

分类：其他好文时间：2014-07-30 21:00:44 阅读次数：198

共450条上一页 1 ... 42 43 44 45 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)