码迷,mamicode.com
首页 >  
搜索关键字:mapreduce streaming    ( 5217个结果
MapReduce案例运行
从《Hadoop权威指南》选取了一个小案例,在Hadoop集群环境中运行。1、新建JAVA类,保存书中源代码。[huser@master bin]$ vi URLCat.javaimport java.io.InputStream;import java.net.URL;import org.apa...
分类:其他好文   时间:2014-05-14 03:52:36    阅读次数:457
Hadoop-2.2.0中文文档—— 从Hadoop 1.x 迁移至 Hadoop 2.x
简介 本文档对从 Apache Hadoop 1.x 迁移他们的Apache Hadoop MapReduce 应用到 Apache Hadoop 2.x 的用户提供了一些信息。 在 Apache Hadoop 2.x 中,我们已经把资源管理功能放入 分布式应用管理框架 的Apache Hadoop YARN,而 Apache Hadoop MapReduce (亦称 MRv2) 保持...
分类:其他好文   时间:2014-05-14 00:55:11    阅读次数:294
Ant编译MapReduce程序
本文记录Ant编译MapReduce程序的过程。程序使用《Hadoop MapReduce Cookbook》中的示例代码。1、安装AntAnt项目主页:http://ant.apache.org/下载二进制安装包,例如apache-ant-1.9.4-bin.tar.gz,上传到Hadoop集群环...
分类:其他好文   时间:2014-05-12 20:44:36    阅读次数:398
MapReduce_去重抽取mdn_imsi
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import...
分类:其他好文   时间:2014-05-12 19:55:27    阅读次数:326
222
/* Endian swapping module.Simple example with Avalon streaming interfaces and a CSR busAvalon-ST has readyLatency of 0Avalon-MM has fixed readLatency ...
分类:其他好文   时间:2014-05-11 23:21:17    阅读次数:423
mapreduce job提交流程源码级分析(三)
mapreduce job提交流程源码级分析(二)(原创)这篇文章说到了jobSubmitClient.submitJob(jobId, submitJobDir.toString(), jobCopy.getCredentials())提交job,最终调用的是JobTracker.submit.....
分类:其他好文   时间:2014-05-11 16:32:10    阅读次数:289
MapReduce入门实例
Hadoop集群(第9期)_MapReduce初级案例1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数.....
分类:其他好文   时间:2014-05-11 16:02:24    阅读次数:538
python 实现Hadoop的partitioner和二次排序
Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程 工作流程 :  InputFile --> mappers --> [Partitioner] --> reducers --> outputFiles 理解 :  1 输入文件,可以是指定远程文件系统内的文件夹下的 * 2 通过集群自己分解到各个PC...
分类:编程语言   时间:2014-05-11 14:46:35    阅读次数:519
Hadoop-2.2.0中文文档—— MapReduce 下一代 -- 公平调度器
目的 此文档描述了 FairScheduler, Hadoop 的一个可插入式的调度器,允许 YARN 应用在一个大集群中公平地共享资源。 简介 公平调度是一种分配资源给应用的方法,以致到最后,平均上所有应用获得相等的资源。  Hadoop NextGen 能够调度多种类型的资源。默认的, Fair Scheduler 仅以内存为基础作公平调度决策。可以用Ghodsi 等开发的 ...
分类:其他好文   时间:2014-05-11 13:05:57    阅读次数:393
大数据Lambda架构
1 Lambda架构介绍 Lambda架构划分为三层,分别是批处理层,服务层,和加速层。最终实现的效果,可以使用下面的表达式来说明。 query = function(alldata) 1.1 批处理层 批处理层主用由Hadoop来实现,负责数据的存储和产生任意的视图数据。计算视图数据是一个联系操作,因此,当新数据到达时,使用MapReduce迭代地将数据聚集到视图中。 从整个数据集中计算...
分类:其他好文   时间:2014-05-11 07:29:44    阅读次数:419
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!