搜索关键字：mapreduce topk算法，搜索到4057个结果！码迷,mamicode.com！

Hive-概述

Hive：由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。本质是：将 HQL 转化成 MapReduce 程序 HQL 转换 MR 流程： Hive 处理的数据存储在 ...

分类：其他好文时间：2019-10-04 22:31:39 阅读次数：120

hive基础知识一

1. Hive是什么 1.1 hive的概念 Hive：由Facebook开源，用于解决海量（结构化日志）的数据统计。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将Hive SQL转化成MapReduce程序 1.2 Hive ...

分类：其他好文时间：2019-10-03 10:44:59 阅读次数：112

spark教程(一)-入门与安装

spark 简介建议先阅读我的博客大数据基础架构 spark 一个通用的计算引擎，专门为大规模数据处理而设计，与 mapreduce 类似，不同的是，mapreduce 把中间结果写入 hdfs，而 spark 直接写入内存，这使得它能够实现实时计算。 spark 由 scala 语言开发， ...

分类：其他好文时间：2019-10-02 12:51:02 阅读次数：1950

Spark(一): 基本架构及原理

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势： Spark提供了一个全面、统 ...

分类：其他好文时间：2019-10-02 00:18:24 阅读次数：145

hadoop之mapreduce详解（优化篇）

一、概述优化前我们需要知道hadoop适合干什么活，适合什么场景，在工作中，我们要知道业务是怎样的，能才结合平台资源达到最有优化。除了这些我们当然还要知道mapreduce的执行过程，比如从文件的读取，map处理，shuffle过程，reduce处理，文件的输出或者存储。在工作中，往往平台的参数都 ...

分类：其他好文时间：2019-10-01 10:01:36 阅读次数：108

小记---------Hadoop读、写文件步骤，HDFS架构理解

Hadoop 是一个开源框架，可编写和运行分布式应用处理大规模数据 Hadoop框架的核心是HDFS 和 MapReduce HDFS是分布式文件系统（存储） MapReduce是分布式数据处理模型和执行环境（计算）作者：Doug Cutting Hadoop特点扩容能力能可靠地存储和处理千兆 ...

分类：其他好文时间：2019-09-29 11:17:45 阅读次数：119

MapReduce设置输出文件到多个文件夹下

一：自定义OutputFormat类MapReduce默认的OutPutFormat会将结果输出文件放置到一个我们指定的目录下，但如果想把输出文件根据某个条件，把满足不同条件的内容分别输出到不同的目录下，就需要自定义实现OutputFormat类，且重写RecordWriter方法。在驱动类中设置 ...

分类：其他好文时间：2019-09-27 15:13:24 阅读次数：94

Python函数式编程——map()、reduce()

Python函数式编程——map()、reduce() 更多12 提起map和reduce想必大家并不陌生，Google公司2003年提出了一个名为MapReduce的编程模型[1]，用于处理大规模海量数据，并在之后广泛的应用于Google的各项应用中，2006年Apache的Hadoop项目[2] ...

分类：编程语言时间：2019-09-26 11:19:30 阅读次数：74

Kylin配置Spark并构建Cube

HDP版本：2.6.4.0 Kylin版本：2.5.1 机器：三台 CentOS 7，8G 内存 Kylin 的计算引擎除了 MapReduce ，还有速度更快的 Spark ，本文就以 Kylin 自带的示例 kylin_sales_cube 来测试一下 Spark 构建 Cube 的速度。一、 ...

分类：其他好文时间：2019-09-25 00:40:34 阅读次数：171

mapreduce的shufflue过程

一、Map阶段： a. 文件切片之后，每一个切片对应一个MapTask b. 在MapTask中，默认按行读取，每读取一行，就调用一次map方法 c. map方法在执行的时候会将结果（这个结果中已经包含了分区信息）写到MapTask自带的缓冲区中。注意：每一个MapTask都会自带一个缓冲区 d. ...

分类：其他好文时间：2019-09-22 23:46:23 阅读次数：94

共4057条上一页 1 ... 36 37 38 39 40 ... 406 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)