码迷,mamicode.com
首页 >  
搜索关键字:mapreduce topk算法    ( 4057个结果
两张数据表,表一学生编号姓名;表二生编号、考试科目、考试成绩;编写mapreduce程序,汇总两张表数据为一张统一表格
1 package com.liuhuan; 2 3 import org.apache.hadoop.io.WritableComparable; 4 5 import java.io.DataInput; 6 import java.io.DataOutput; 7 import java.io ...
分类:其他好文   时间:2020-04-07 18:45:58    阅读次数:102
hive、Hbase、mysql的区别(转)
hive、Hbase、mysql的区别 1、Hive和HBase的区别 1)hive是sql语言,通过数据库的方式来操作hdfs文件系统,为了简化编程,底层计算方式为mapreduce。 2)hive是面向行存储的数据库。 3)Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce, ...
分类:数据库   时间:2020-04-06 20:39:58    阅读次数:71
【赵强老师】在Spark SQL中读取JSON文件
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL?如果大家了解Hive的话,应该知道它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRedu ...
分类:数据库   时间:2020-04-05 13:33:32    阅读次数:113
Hadoop (六):MapReduce基本使用
MapReduce原理 背景 因为如果要对海量数据进行计算,计算机的内存可能会不够。 因此可以把海量数据切割成小块多次计算。 而分布式系统可以把小块分给多态机器并行计算。 MapReduce概述 MapReduce是一种分布式计算模型,由Google提出主要用于搜索领域,解决海量数据的计算问题。 适 ...
分类:其他好文   时间:2020-04-05 00:49:37    阅读次数:74
【赵强老师】大数据分析引擎:Presto
一、什么是Presto? 背景知识:Hive的缺点和Presto的背景 Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越多,使用Hive进行一个简单的数据查询可能要花费几分到几小时,显然不能满足交互式查询的需求。Presto是一个分布式SQL查询引擎,它被设计为用 ...
分类:其他好文   时间:2020-04-04 11:41:05    阅读次数:80
谷歌 MapReduce 初探
谷歌“三驾马车”的出现,才真正把我们带入了大数据时代,毕竟没有谷歌,就没有大数据。 上次的分享,我们对谷歌的其中一驾宝车 GFS 进行了管中窥豹,虽然只见得其中一斑,但是也能清楚的知道 GFS 能够把大量廉价的普通机器,聚在一起,充分让每台廉价的机器发挥光和热,不但降低了运营成本,而且解决了一个业界 ...
分类:其他好文   时间:2020-04-04 09:51:40    阅读次数:70
设计模式 - Master-Worker模式
Master-Worker模式中 master负责收集任务和初始化,worker负责管理分配协调,具体任务落到具体的task结点中 其分工明确 与MapReduce的分而治之的思想一致。网上很多草图有些不够具体 乍看与Master-Worker模式中编码有一些出入。 其中master相当于老板. 把 ...
分类:其他好文   时间:2020-04-03 00:37:56    阅读次数:75
hadoop-MapReduce框架原理之Shuffle机制
1.Shuffle机制 1.1 什么是shuffle机制 1.1.1 在hadoop中数据从map阶段传递给reduce阶段的过程就叫shuffle,shuffle机制是整个MapReduce框架中最核心的部分; 1.1.2 shuffle翻译成中文的意思为:洗牌,发牌(核心机制:数据分区,排序,缓 ...
分类:其他好文   时间:2020-04-02 18:08:23    阅读次数:115
MongoDB
1.简介 MongoDB并非芒果的意思,而是源于 Humongous(巨大)一词。 1.1MongoDB的特性 MongoDB的3大技术特色如下所示: 除了上图所示的还 支持 : 二级索引、动态查询、全文搜索 、聚合框架、MapReduce、GridFS、地理位置索引、内存引擎 、地理分布等一系列的 ...
分类:数据库   时间:2020-04-02 15:48:45    阅读次数:89
MapReduce深入
hadoop中map和reduce都是进程(spark中是线程),map和reduce可以部署在同一个机器上也可以部署在不同机器上。 输入数据是hdfs的block,通过一个map函数把它转化为一个个键值对,并同时将这些键值对写入内存缓存区(100M),内存缓存区的数据每满80M就会将这80M数据写 ...
分类:其他好文   时间:2020-04-01 00:56:20    阅读次数:58
4057条   上一页 1 ... 16 17 18 19 20 ... 406 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!