搜索关键字：hadoop-mapreduce，搜索到502个结果！码迷,mamicode.com！

Hadoop学习之运行官方案例

Hadoop的官方案例都在mapreduce.jar文件夹中，提供了mapreduce的基本功能，可用于计算，eg:pi值，计算文档中的字数等官方案例都在 hadoop-mapreduce-examples-2.7.3.jar 这个jar包中。命令：hadoop jar ./hadoop-2.7 ...

分类：其他好文时间：2020-04-24 01:40:56 阅读次数：107

HBase和MapReduce

感谢平台分享-http://bjbsair.com/2020-04-10/tech-info/53333.htmlApacheMapReduce是一个用于分析大量数据的软件框架。它由ApacheHadoop提供。MapReduce本身超出了本文档的范围。开始使用MapReduce的好地方是https://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-

分类：其他好文时间：2020-04-11 09:37:51 阅读次数：83

hadoop-MapReduce框架原理之Shuffle机制

1.Shuffle机制 1.1 什么是shuffle机制 1.1.1 在hadoop中数据从map阶段传递给reduce阶段的过程就叫shuffle，shuffle机制是整个MapReduce框架中最核心的部分； 1.1.2 shuffle翻译成中文的意思为：洗牌，发牌（核心机制：数据分区，排序，缓 ...

分类：其他好文时间：2020-04-02 18:08:23 阅读次数：115

hadoop-MapReduce概述

1.MapReduce定义 MapReduce是一个分布式运算程序的编程框架，是用户开发基于hadoop的数据分析应用的核心框架； MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上； 2.MapReduce优缺点 2. ...

分类：其他好文时间：2020-03-30 16:38:13 阅读次数：83

集群规模计算

一、数据规模二、集群处理数据的吞吐量 2.1 hdfs的读写测试 Hadoop自带一个测试用的jar包，可以运行它来得知集群处理数据的性能如何 hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-c ...

分类：其他好文时间：2020-03-29 12:35:17 阅读次数：225

hadoop之运行官方实例二--WordCount

1、在hadoop-2.9.2目录下新建一个wcinput：mkdir wcinput 2、在wcinput下新建一个文件：touch wc.input 3、vim wc.input，在wc.input中输入： hadoop yarn hadoop mapreduce gong gong 4、回到h ...

分类：其他好文时间：2020-03-01 12:48:53 阅读次数：60

Hadoop——MapReduce介绍

序言 MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想。 MapReduce产生背景如果让你统计日志里面的出现的某个URL的总次数，让你自己去写个单机版的程序，写个逻辑：无非就是读这个文件一行,然后把那个 ...

分类：其他好文时间：2020-02-23 11:52:43 阅读次数：68

3.Spark 集群模式

Spark 集群模式系统当前支持几种集群管理器： Standalone – 包含在spark中的一个简单集群管理器，它使得设置一个集群很容易。 Apache Mesos – 一个通用集群管理器，也能运行Hadoop MapReduce 和 service 应用。 Hadoop YARN – the ...

分类：其他好文时间：2020-02-22 14:09:44 阅读次数：86

9.2.1 hadoop mapreduce任务输出的默认排序

任务的默认排序 MapTask和ReduceTask都会默认对数据按照key进行排序，不管逻辑上是否需要。默认是按照字典顺序排序，且实现该排序的方法是快速排序。但是map和reduce任务只能保证单个任务内部输出有序，不能保证所有输出全局有序。 MapTask，当环形缓冲区使用率到达一定阈值后进行一 ...

分类：编程语言时间：2020-02-16 01:06:19 阅读次数：74

Spark与Hadoop对比

一、运行速度方面： Spark把中间数据放到内存中，迭代运算效率高。 Hadoop MapReduce将计算结果保存到磁盘上，这样会影响整体速度，而Spark支持DAG图的分布式并行计算的编程框架，减少了迭代过程中数据的落地，提高了处理效率。二、容错方面： Spark引进了弹性分布式数据集RDD ...

分类：其他好文时间：2020-01-18 21:41:13 阅读次数：106

共502条上一页 1 2 3 4 ... 51 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)