搜索关键字：mapreduce topk算法，搜索到4057个结果！码迷,mamicode.com！

两张数据表，表一学生编号姓名；表二生编号、考试科目、考试成绩；编写mapreduce程序，汇总两张表数据为一张统一表格

1 package com.liuhuan; 2 3 import org.apache.hadoop.io.WritableComparable; 4 5 import java.io.DataInput; 6 import java.io.DataOutput; 7 import java.io ...

分类：其他好文时间：2020-04-07 18:45:58 阅读次数：102

hive、Hbase、mysql的区别（转）

hive、Hbase、mysql的区别 1、Hive和HBase的区别 1）hive是sql语言，通过数据库的方式来操作hdfs文件系统，为了简化编程，底层计算方式为mapreduce。 2）hive是面向行存储的数据库。 3）Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce， ...

分类：数据库时间：2020-04-06 20:39:58 阅读次数：71

【赵强老师】在Spark SQL中读取JSON文件

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL？如果大家了解Hive的话，应该知道它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapRedu ...

分类：数据库时间：2020-04-05 13:33:32 阅读次数：113

Hadoop （六）：MapReduce基本使用

MapReduce原理背景因为如果要对海量数据进行计算，计算机的内存可能会不够。因此可以把海量数据切割成小块多次计算。而分布式系统可以把小块分给多态机器并行计算。 MapReduce概述 MapReduce是一种分布式计算模型，由Google提出主要用于搜索领域，解决海量数据的计算问题。适 ...

分类：其他好文时间：2020-04-05 00:49:37 阅读次数：74

【赵强老师】大数据分析引擎：Presto

一、什么是Presto？背景知识：Hive的缺点和Presto的背景 Hive使用MapReduce作为底层计算框架，是专为批处理设计的。但随着数据越来越多，使用Hive进行一个简单的数据查询可能要花费几分到几小时，显然不能满足交互式查询的需求。Presto是一个分布式SQL查询引擎，它被设计为用 ...

分类：其他好文时间：2020-04-04 11:41:05 阅读次数：80

谷歌 MapReduce 初探

谷歌“三驾马车”的出现，才真正把我们带入了大数据时代，毕竟没有谷歌，就没有大数据。上次的分享，我们对谷歌的其中一驾宝车 GFS 进行了管中窥豹，虽然只见得其中一斑，但是也能清楚的知道 GFS 能够把大量廉价的普通机器，聚在一起，充分让每台廉价的机器发挥光和热，不但降低了运营成本，而且解决了一个业界 ...

分类：其他好文时间：2020-04-04 09:51:40 阅读次数：70

设计模式 - Master-Worker模式

Master-Worker模式中 master负责收集任务和初始化，worker负责管理分配协调，具体任务落到具体的task结点中其分工明确与MapReduce的分而治之的思想一致。网上很多草图有些不够具体乍看与Master-Worker模式中编码有一些出入。其中master相当于老板. 把 ...

分类：其他好文时间：2020-04-03 00:37:56 阅读次数：75

hadoop-MapReduce框架原理之Shuffle机制

1.Shuffle机制 1.1 什么是shuffle机制 1.1.1 在hadoop中数据从map阶段传递给reduce阶段的过程就叫shuffle，shuffle机制是整个MapReduce框架中最核心的部分； 1.1.2 shuffle翻译成中文的意思为：洗牌，发牌（核心机制：数据分区，排序，缓 ...

分类：其他好文时间：2020-04-02 18:08:23 阅读次数：115

MongoDB

1.简介 MongoDB并非芒果的意思，而是源于 Humongous（巨大）一词。 1.1MongoDB的特性 MongoDB的3大技术特色如下所示：除了上图所示的还支持：二级索引、动态查询、全文搜索、聚合框架、MapReduce、GridFS、地理位置索引、内存引擎、地理分布等一系列的 ...

分类：数据库时间：2020-04-02 15:48:45 阅读次数：89

MapReduce深入

hadoop中map和reduce都是进程（spark中是线程），map和reduce可以部署在同一个机器上也可以部署在不同机器上。输入数据是hdfs的block，通过一个map函数把它转化为一个个键值对，并同时将这些键值对写入内存缓存区（100M），内存缓存区的数据每满80M就会将这80M数据写 ...

分类：其他好文时间：2020-04-01 00:56:20 阅读次数：58

共4057条上一页 1 ... 16 17 18 19 20 ... 406 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)