搜索关键字：reducer，搜索到450个结果！码迷,mamicode.com！

Hive学习心得&Hive的UDF

一：Hive基本介绍 Hive是建立在Hadoop上的数据仓库基础构架，它提供了一系列工具可以用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模的数据机制。使用语言：QL语言（类SQL查询语言）。能处理内建的mapper和reducer无法完成的复杂分析工作。 1.Hive是SQL解析引擎，它将SQL语句转译成M/R Job然后再Hadoop执行。 2...

分类：其他好文时间：2015-02-16 11:45:31 阅读次数：1005

选择 reducer 的个数

默认情况下，一个 mapreduce job 只有一个 reducer ，真实应用中，作业都把它设置成一个较大的数字，否则由于所有的中间数据都会放到一个 reducer 任务中，造成性能瓶颈。 reducer 最优个数与集群中可用的 reduce...

分类：其他好文时间：2015-02-01 19:15:39 阅读次数：324

mapreduce-查找最高气温的Reducer类

package com; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Reducer; public class MaxTempera...

分类：其他好文时间：2015-02-01 02:01:40 阅读次数：269

实现一个mapreduce的job

介绍Hadoop安装好后，有人会想做一个mapreduce的job跑一跑，mapreduce其实是两个功能，一个是mapper，一个是reducer，废话不多说，现在开始。正文1环境1.1部署hadoop单机版即可，namenode,datanode,resourcemanager,nodemanager,secondnamenode都部署在同一台机器上。创建hadoo..

分类：其他好文时间：2015-01-30 17:52:32 阅读次数：313

在本地文件系统上测试MapReduce程序

在开发MapReduce程序的过程中，可以首先在本地文件系统上对程序进行测试，而不是一开始就在HDFS上，这样调试起来更加方便。以《Hadoop权威指南》上的MaxTemperature程序为例，整个项目中包括如下3个源文件，依次为Mapper程序、Reducer程序和job启动程序： MaxTemperatureMapper.java，MaxTemperatureReducer...

分类：其他好文时间：2015-01-19 17:19:56 阅读次数：143

MRUnit的安装和使用

MRUnit是对MapReduce程序进行单元测试的工具，可以对Mapper和Reducer程序分别进行测试。但是它没有集成在Hadoop安装环境中，如果想在开发MapReduce程序时使用这个工具，就需要自己安装。 MRUnit的安装安装环境： Eclipse版本为3.6.0 Hadoop版本为1.0.4 安装步骤：（1）下载MRUnit，网址为http://...

分类：其他好文时间：2015-01-19 12:54:56 阅读次数：729

自制 python hadoop streaming 数据分析工具

https://github.com/zhuyi10/hadoop_data_analysis跟大家交流一下我写的数据分析工具用hadoop streaming执行python写的mapper, reducer目前只实现了一些简单的分析功能希望大家多提意见

分类：编程语言时间：2014-12-24 09:52:18 阅读次数：144

io.sort.spill.percent调整

引言 MapReduce作出保证：进入每个Reducer的数据行都是有序的（根据数据行的键值进行排序）。MapReduce将Mapper的输出进行排序并传递给Reducer作为输入的过程称为Shuffle。在很多场景下，Shuffle是整个MapReduce过程的核心，也是“奇迹”发生的地方，如下图...

分类：其他好文时间：2014-12-22 22:34:02 阅读次数：1516

MapReduce Shuffle And Sort

引言MapReduce作出保证：进入每个Reducer的数据行都是有序的（根据数据行的键值进行排序）。MapReduce将Mapper的输出进行排序并传递给Reducer作为输入的过程称为Shuffle。在很多场景下，Shuffle是整个MapReduce过程的核心，也是“奇迹”发生的地方，如下图所...

分类：其他好文时间：2014-12-22 17:36:53 阅读次数：189

mapreduce 输入输出类型

默认的mapper是IdentityMapper，默认的reducer是IdentityReducer，它们将输入的键和值原封不动地写到输出中。默认的partitioner是HashPartitinoer，它根据每条记录的键进行哈希操作来分区。输入文件：文件是MapReduce任务的数据的初始存储地...

分类：其他好文时间：2014-12-11 15:26:05 阅读次数：216

共450条上一页 1 ... 40 41 42 43 44 45 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)