搜索关键字：mapreduce topk算法，搜索到4057个结果！码迷,mamicode.com！

大型网络技术架构3

大型网络技术架构3 2020.3.14 分层最常见的架构模式，将系统在横向维度上切分成几个部分，每个部分单一职责。网站一般分为三个层次：应用层、服务层和数据层，过分层，一个庞大系统切分成不同部分，便于分工合作和维护。分割：分割是在纵向方面对软件进行切分->将不同的功能和服务分割开来，包装成高内 ...

分类：其他好文时间：2020-06-13 21:06:18 阅读次数：57

Apache Spark有哪些局限性

ApacheSpark是行业中流行和广泛使用的大数据工具之一。ApacheSpark已成为业界的热门话题，并且如今非常流行。但工业正在转移朝向apacheflink。ApacheSpark简介ApacheSpark是为快速计算而设计的开源，闪电般快速的集群计算框架。ApacheSpark扩展了MapReduce模型，以有效地将其用于多种计算，包括流处理和交互式查询。ApacheSpark的主要功能

分类：Web程序时间：2020-06-12 09:14:25 阅读次数：61

入门学习python语言主要用途有哪些?

python是一门非常高级的编程语言，同时python作为人工智能的重要编程语言，无论发展前景还是就业方向，都可以说是无可限量。

分类：编程语言时间：2020-06-11 00:42:34 阅读次数：104

Mr与spark的shuffle过程详解及对比

恢复内容开始大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark，mapReducehe和Spark之间的最大区别是前者较偏向于离线处理，而后者重视实现性，下面主要介绍mapReducehe和Spark两者的shuffle过程。 MapReduce的Shuffle ...

分类：其他好文时间：2020-06-08 19:17:29 阅读次数：88

MapReduce源码分析--Shuffle阶段

一、收集执行NewOutputCollector对象的write方法就开启了对map输出数据的收集过程： ? collector是一个MapOutputCollector类型的变量，它是实际执行收集数据功能的对象载体： private final MapOutputCollector<K,V> c ...

分类：其他好文时间：2020-06-08 18:53:43 阅读次数：64

乱谈马拉松和mapreduce的关系

做为一个业务马拉松爱好者和一个不太专业的IT从业者（十多年开发不会，业务略懂，没形成自己的价值体系，啥啥没心得，得过且过十几年），在马拉松的时候想到了这个对照关系。那就随便写写，看到了博君一笑。 hadoop的map阶段，是通过transform操作，将数据进行转换，这个阶段数据都是在各个机器上， ...

分类：其他好文时间：2020-06-08 00:39:55 阅读次数：61

Hive的压缩存储和简单优化

一、Hive的压缩和存储 1，MapReduce支持的压缩编码压缩格式工具算法文件扩展名是否可切分对应的编码/解码器 DEFLATE 无 DEFLATE .deflate 否 org.apache.hadoop.io.compress.DefaultCodec Gzip gzip DEF ...

分类：其他好文时间：2020-06-07 19:08:04 阅读次数：65

Apache Spark

Apache Spark Apache Spark是一个开源集群运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中，Spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行 ...

分类：Web程序时间：2020-05-31 00:41:36 阅读次数：95

优化技巧汇总_通用优化+Linux 优化+HDFS 优化+MapReduce 优化+HBase 优化+内存优化+JVM 优化+Zookeeper 优化

一、通用优化 1.1、NameNode 的元数据备份使用 SSD 1.2、定时备份 NameNode 上的元数据建议每小时或者每天备份，如果数据极其重要，可以5~10分钟备份一次。备份可以通过定时任务复制元数据目录即可。 1.3、为 NameNode 指定多个元数据目录使用 dfs.name.d ...

分类：系统相关时间：2020-05-30 21:52:59 阅读次数：105

azkaban从入门到实战

一概述 1.1 为什么需要工作流调度系统 1）一个完整的数据分析系统通常都是由大量任务单元组成： shell 脚本程序，java 程序，mapreduce 程序、hive 脚本等。2）各任务单元之间存在时间先后及前后依赖关系。3）为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行 ...

分类：其他好文时间：2020-05-30 20:00:49 阅读次数：59

共4057条上一页 1 ... 11 12 13 14 15 ... 406 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)