码迷,mamicode.com
首页 >  
搜索关键字:reducer    ( 450个结果
Hive学习心得&Hive的UDF
一:Hive基本介绍 Hive是建立在Hadoop上的数据仓库基础构架,它提供了一系列工具可以用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模的数据机制。 使用语言:QL语言(类SQL查询语言)。能处理内建的mapper和reducer无法完成的复杂分析工作。 1.Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后再Hadoop执行。 2...
分类:其他好文   时间:2015-02-16 11:45:31    阅读次数:1005
选择 reducer 的个数
默认情况下,一个 mapreduce job 只有一个 reducer ,真实应用中,作业都把它设置成一个较大的数字,否则由于所有的中间数据都会放到一个 reducer 任务中,造成性能瓶颈。 reducer 最优个数与集群中可用的 reduce...
分类:其他好文   时间:2015-02-01 19:15:39    阅读次数:324
mapreduce-查找最高气温的Reducer类
package com; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Reducer; public class MaxTempera...
分类:其他好文   时间:2015-02-01 02:01:40    阅读次数:269
实现一个mapreduce的job
介绍Hadoop安装好后,有人会想做一个mapreduce的job跑一跑,mapreduce其实是两个功能,一个是mapper,一个是reducer,废话不多说,现在开始。正文1环境1.1部署hadoop单机版即可,namenode,datanode,resourcemanager,nodemanager,secondnamenode都部署在同一台机器上。创建hadoo..
分类:其他好文   时间:2015-01-30 17:52:32    阅读次数:313
在本地文件系统上测试MapReduce程序
在开发MapReduce程序的过程中,可以首先在本地文件系统上对程序进行测试,而不是一开始就在HDFS上,这样调试起来更加方便。 以《Hadoop权威指南》上的MaxTemperature程序为例,整个项目中包括如下3个源文件,依次为Mapper程序、Reducer程序和job启动程序: MaxTemperatureMapper.java,MaxTemperatureReducer...
分类:其他好文   时间:2015-01-19 17:19:56    阅读次数:143
MRUnit的安装和使用
MRUnit是对MapReduce程序进行单元测试的工具,可以对Mapper和Reducer程序分别进行测试。但是它没有集成在Hadoop安装环境中,如果想在开发MapReduce程序时使用这个工具,就需要自己安装。 MRUnit的安装 安装环境: Eclipse版本为3.6.0 Hadoop版本为1.0.4 安装步骤: (1)下载MRUnit,网址为http://...
分类:其他好文   时间:2015-01-19 12:54:56    阅读次数:729
自制 python hadoop streaming 数据分析工具
https://github.com/zhuyi10/hadoop_data_analysis跟大家交流一下我写的数据分析工具用hadoop streaming执行python写的mapper, reducer目前只实现了一些简单的分析功能希望大家多提意见
分类:编程语言   时间:2014-12-24 09:52:18    阅读次数:144
io.sort.spill.percent调整
引言 MapReduce作出保证:进入每个Reducer的数据行都是有序的(根据数据行的键值进行排序)。MapReduce将Mapper的输出进行排序并传递给Reducer作为输入的过程称为Shuffle。在很多场景下,Shuffle是整个MapReduce过程的核心,也是“奇迹”发生的地方,如下图...
分类:其他好文   时间:2014-12-22 22:34:02    阅读次数:1516
MapReduce Shuffle And Sort
引言MapReduce作出保证:进入每个Reducer的数据行都是有序的(根据数据行的键值进行排序)。MapReduce将Mapper的输出进行排序并传递给Reducer作为输入的过程称为Shuffle。在很多场景下,Shuffle是整个MapReduce过程的核心,也是“奇迹”发生的地方,如下图所...
分类:其他好文   时间:2014-12-22 17:36:53    阅读次数:189
mapreduce 输入输出类型
默认的mapper是IdentityMapper,默认的reducer是IdentityReducer,它们将输入的键和值原封不动地写到输出中。默认的partitioner是HashPartitinoer,它根据每条记录的键进行哈希操作来分区。输入文件:文件是MapReduce任务的数据的初始存储地...
分类:其他好文   时间:2014-12-11 15:26:05    阅读次数:216
450条   上一页 1 ... 40 41 42 43 44 45 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!