搜索关键字：mapreduce streaming，搜索到5217个结果！码迷,mamicode.com！

Hive的基本介绍

什么是Hive？ Hive：由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive 是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将SQL转化成MapReduce程序。 1、Hive 处理的数据存储在HDFS； 2、Hiv ...

分类：其他好文时间：2020-12-03 11:43:46 阅读次数：3

Flink之流式框架的对比

Flink的优势和特点：一、同时支持高吞吐、低延迟、高性能 Flink是目前开源社区中唯一一套集高吞吐、低延迟、高性能三者于一身的分布式流式数据处理框架。Apache Spark也只能兼顾高吞吐和高性能特点，主要是因为Spark Streaming流式计算中无法做到低延迟保障；而流式计算框架Apa ...

分类：其他好文时间：2020-12-03 11:33:38 阅读次数：5

Hadoop框架：MapReduce基本原理和入门案例

MapReduce既是一个编程模型，也是一个计算组件，处理的过程分为两个阶段，Map阶段：负责把任务分解为多个小任务，Reduce负责把多个小任务的处理结果进行汇总。其中Map阶段主要输入是一对Key-Value，经过map计算后输出一对Key-Value值；然后将相同Key合并，形成Key-Value集合；再将这个Key-Value集合转入Reduce阶段，经过计算输出最终Key-Value结果集。

分类：其他好文时间：2020-11-26 14:53:23 阅读次数：6

我要进大厂之大数据MapReduce知识点(2)

01 我们一起学大数据今天老刘分享的是MapReduce知识点的第二部分，在第一部分中基本把MapReduce的工作流程讲述清楚了，现在就是对MapReduce零零散散的知识点进行总结，这次的内容大纲如下图： 02 需要谨记的知识点第6点：自定义分区在上篇文章里的第五点提到过这句话：分区用到了 ...

分类：其他好文时间：2020-11-25 12:39:39 阅读次数：6

认识Hive

认识Hive 从MapReduce到SQL Hive架构三种安装方式 Hive与关系型数据库的区别 1. 认识Hive 前面我们讲到了mapreduce计算框架，各位需要通过java编码的形式来实现设计运算过程，Hive的设计目的就是为了让精通sql技能而java较弱的分析师能够利用hadoop进 ...

分类：其他好文时间：2020-11-21 12:33:40 阅读次数：7

MapReduce

2. MAPREDUCE框架结构及核心运行机制 2.1 框架架构一个完整的mapreduce程序在分布式运行时有三类实例进程：1、MRAppMaster(Mapreduce application master)：负责整个程序的过程调度及状态协调2、MapTask：负责map阶段的整个数据处理流程 ...

分类：其他好文时间：2020-11-21 12:15:54 阅读次数：6

大数据平台建设 —— SQL查询引擎之Presto

大数据查询引擎Presto简介SQLonHadoop：Hive的出现让技术人员可以通过类SQL的方式对批量数据进行查询，而不用开发MapReduce程序MapReduce计算过程中大量的中间结果磁盘落地使运行效率较低为了提高SQLonHadoop的效率，各大工具应运而生，比如Shark、Impala等SQLonHadoop的常见工具：Presto是什么：Presto是由Facebook开发的分布式

分类：数据库时间：2020-11-21 12:01:11 阅读次数：8

深入探讨HBASE

HBase是一个高可靠、高性能、面向列的，主要用于海量结构化和半结构化数据存储的分布式key-value存储系统。它基于Google Bigtable开源实现，但二者有明显的区别：Google Bigtable基于GFS存储，通过MAPREDUCE处理存储的数据，通过chubby处理协同服务；而HB... ...

分类：其他好文时间：2020-11-20 12:05:39 阅读次数：11

漫画：什么是MapReduce？

漫画：什么是MapReduce？点击上方“程序员小灰”，选择“置顶公众号”有趣有内涵的文章第一时间送达！—————第二天—————————————————什么是MapReduce？MapReduce是一种编程模型，其理论来自Google公司发表的三篇论文（MapReduce，BigTable，GFS）之一，主要应用于海量数据的并行计算。MapReduce可以分成Map和Reduce两部分理解。1.

分类：其他好文时间：2020-11-20 11:20:39 阅读次数：5

yarn初始

yarn是什么：旧版本MapReduce中的JobTracker/TaskTracker在可扩展性、内存消耗、可靠性和线程模型方面存在很多问题，需要开发者做很多调整来修复。 Hadoop的开发者对这些问题进行了Bug修复，可是由此带来的成本却越来越高，为了从根本上解决旧MapReduce存在的问题 ...

分类：其他好文时间：2020-11-19 12:56:26 阅读次数：17

共5217条上一页 1 ... 5 6 7 8 9 ... 522 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)