Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 本质是:将 HQL 转化成 MapReduce 程序 HQL 转换 MR 流程: Hive 处理的数据存储在 ...
分类:
其他好文 时间:
2019-10-04 22:31:39
阅读次数:
120
1. Hive是什么 1.1 hive的概念 Hive:由Facebook开源,用于解决海量(结构化日志)的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将Hive SQL转化成MapReduce程序 1.2 Hive ...
分类:
其他好文 时间:
2019-10-03 10:44:59
阅读次数:
112
spark 简介 建议先阅读我的博客 大数据基础架构 spark 一个通用的计算引擎,专门为大规模数据处理而设计,与 mapreduce 类似,不同的是,mapreduce 把中间结果 写入 hdfs,而 spark 直接写入 内存,这使得它能够实现实时计算。 spark 由 scala 语言开发, ...
分类:
其他好文 时间:
2019-10-02 12:51:02
阅读次数:
1950
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势: Spark提供了一个全面、统 ...
分类:
其他好文 时间:
2019-10-02 00:18:24
阅读次数:
145
一、概述 优化前我们需要知道hadoop适合干什么活,适合什么场景,在工作中,我们要知道业务是怎样的,能才结合平台资源达到最有优化。除了这些我们当然还要知道mapreduce的执行过程,比如从文件的读取,map处理,shuffle过程,reduce处理,文件的输出或者存储。在工作中,往往平台的参数都 ...
分类:
其他好文 时间:
2019-10-01 10:01:36
阅读次数:
108
Hadoop 是一个开源框架,可编写和运行分布式应用处理大规模数据 Hadoop框架的核心是HDFS 和 MapReduce HDFS是分布式文件系统(存储) MapReduce是分布式数据处理模型和执行环境(计算) 作者:Doug Cutting Hadoop特点 扩容能力 能可靠地存储和处理千兆 ...
分类:
其他好文 时间:
2019-09-29 11:17:45
阅读次数:
119
一:自定义OutputFormat类MapReduce默认的OutPutFormat会将结果输出文件放置到一个我们指定的目录下,但如果想把输出文件根据某个条件,把满足不同条件的内容分别输出到不同的目录下, 就需要自定义实现OutputFormat类,且重写RecordWriter方法。在驱动类中设置 ...
分类:
其他好文 时间:
2019-09-27 15:13:24
阅读次数:
94
Python函数式编程——map()、reduce() 更多12 提起map和reduce想必大家并不陌生,Google公司2003年提出了一个名为MapReduce的编程模型[1],用于处理大规模海量数据,并在之后广泛的应用于Google的各项应用中,2006年Apache的Hadoop项目[2] ...
分类:
编程语言 时间:
2019-09-26 11:19:30
阅读次数:
74
HDP版本:2.6.4.0 Kylin版本:2.5.1 机器:三台 CentOS 7,8G 内存 Kylin 的计算引擎除了 MapReduce ,还有速度更快的 Spark ,本文就以 Kylin 自带的示例 kylin_sales_cube 来测试一下 Spark 构建 Cube 的速度。 一、 ...
分类:
其他好文 时间:
2019-09-25 00:40:34
阅读次数:
171
一、Map阶段: a. 文件切片之后,每一个切片对应一个MapTask b. 在MapTask中,默认按行读取,每读取一行,就调用一次map方法 c. map方法在执行的时候会将结果(这个结果中已经包含了分区信息)写到MapTask自带的缓冲区中。注意:每一个MapTask都会自带一个缓冲区 d. ...
分类:
其他好文 时间:
2019-09-22 23:46:23
阅读次数:
94