搜索关键字：mapreduce partitioner，搜索到4100个结果！码迷,mamicode.com！

Hadoop集群维护

HDFS小文件问题及解决方案：http://dongxicheng.org/mapreduce/hdfs-small-files-solution/Hadoop升级方案（一）：Hadoop 1.0内部版本升级（初稿）：http://dongxicheng.org/mapreduce-nextgen/...

分类：其他好文时间：2014-05-10 02:08:24 阅读次数：327

Hadoop下面WordCount运行详解

单词计数是最简单也是最能体现MapReduce思想的程序之一，可以称为MapReduce版"Hello World"，该程序的完整代码可以在Hadoop安装包的"src/examples"目录下找到。单词计数主要完成功能是：统计一系列文本文件中每个单词出现的次数，如下图所示。现在我们以"hadoop...

分类：其他好文时间：2014-05-10 01:54:48 阅读次数：445

Hadoop MapReduce开发最佳实践（上篇）

Hadoop MapReduce开发最佳实践（上篇）本文是Hadoop最佳实践系列第二篇，上一篇为《Hadoop管理员的十个最佳实践》。MapRuduce开发对于大多数程序员都会觉得略显复杂，运行一个WordCount（Hadoop中hello word程序）不仅要熟悉MapRuduce模型，还要了...

分类：其他好文时间：2014-05-08 21:45:46 阅读次数：640

Hadoop集群（第9期）_MapReduce初级案例 - 虾皮 - 博客园

Hadoop集群（第9期）_MapReduce初级案例 - 虾皮 - 博客园1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1....

分类：其他好文时间：2014-05-08 20:38:16 阅读次数：669

使用hadoop multipleOutputs对输出结果进行不一样的组织

MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中，框架自己会自动对输出文件进行命名和组织，如:part-(m|r)-00000之类。但有时为了后续流程的方便，我们常需要对输出结果进行一定的分类和组织。...

分类：其他好文时间：2014-05-04 10:22:15 阅读次数：341

MapReduce 实现数据join操作

前段时间有一个业务需求，要在外网商品（TOPB2C）信息中加入联营自营识别的字段。但存在的一个问题是，商品信息和自营联营标示数据是两份数据；商品信息较大，是存放在hbase中。他们之前唯一的关联是url。所以考虑用url做key将两者做join，将联营自营标识信息加入的商品信息中，最终生成我需要的数...

分类：其他好文时间：2014-05-04 10:02:22 阅读次数：565

Hadoop初学指南(8)--MapReduce中的Combiner操作

本文主要介绍了MapReduce中的Combiner操作。在MapReduce的执行步骤中，我们一共分了8步，其中Map中的最后一步规约操作就是今天要讲的Combiner。首先看一下前文中的计数器：我们可以发现，其中有两个计数器：Combineoutputrecords和Combineinputrecords，他们的计数都是0，这是..

分类：其他好文时间：2014-05-03 15:00:55 阅读次数：323

Hadoop初学指南(7)--MapReduce自定义计数器

本文主要介绍了MapReduce中的自定义计数器的相关内容。在上次的单词统计例子中，我们可以看到MapReduce在执行过程中会有很多的控制台输出信息，其中有一个很关键的内容：计数器。如下图：可以看到最上方的关键字：Counters，这就表示计数器。在这里，只有一个制表符缩进的表示..

分类：其他好文时间：2014-05-03 14:56:19 阅读次数：336

Hadoop初学指南(5)--MapReduce入门

本文将介绍Hadoop中的重点MapReduce的入门知识。(1)MapReduce概述MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题。MR由两个阶段组成：Map和Reduce，在Hadoop中用户只需要实现map()和reduce()两个函数，即可实现分布式计算，非常简单..

分类：其他好文时间：2014-05-03 01:53:48 阅读次数：519

Pig安装及本地模式实战

Pig是Apache的一个开源项目，用于简化MapReduce的开发，实质Pig将转化为MapReduce作业，使开发人员更多专注数据而不是执行的本质，是不懂java人员的福利。Pig由以下两部分组成：1、表达数据流的语言，成为PigLatin。2、运行PigLatin程序的执行环境。目前有两种环境：在单个JVM..

分类：其他好文时间：2014-05-02 07:52:55 阅读次数：591

共4100条上一页 1 ... 407 408 409 410 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)