一. Hive基础概念 1.什么是Hive Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。 本质是:将 HQL 转化成 MapReduce 程序。 1)Hiv ...
分类:
其他好文 时间:
2020-01-26 11:46:27
阅读次数:
96
1.1.1 配置调优 通过调节配置参数,达到较优的性能。Map配置参数 属性 类型 默认值 作用 mapreduce.Task.io.sort.mb Int 100 Map输出结果的缓冲区大小兆为单位 mapreduce.map.sort.spill.percent Float 80 缓冲区占用比例 ...
分类:
其他好文 时间:
2020-01-24 16:06:03
阅读次数:
91
1.1 Shuffle和排序 Shuffle:系统执行排序,将map输出作为输入传给reduce的过程称为shuffle。 1.1.1 Map端缓存排序输出 (1) 写入缓冲区:map输出结果先输出到内存缓冲区(默认100M,通过属性mapreduce.Task.io.sort.mb设置) (2) ...
分类:
编程语言 时间:
2020-01-24 15:56:59
阅读次数:
78
flume 1.1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的 海量日志采集、聚合和传输的系统 。Flume基于流式架构,灵活简单。 大数据框架大致分为3类: 数据的采集和传输:flume 数据的存储:HDFS 数据的计算:MapReduce 1.2 应用场景 ...
分类:
Web程序 时间:
2020-01-23 12:37:38
阅读次数:
103
大部分人没有交换分区的问题。 因为在做Linux的时候交换分区是按照内存的2倍来做的。但是我的是用VM快速装机做的。所以交换分区被设置成了等于内存。 扩展交换分区:https://blog.csdn.net/Ares_song/article/details/81203251 永久添加该文件:htt ...
分类:
Web程序 时间:
2020-01-22 14:50:26
阅读次数:
210
Spark是一种分布式计算框架,对标Hadoop的MapReduce;MapReduce适用于离线批处理(处理延迟在分钟级)而Spark既可以做离线批处理,也可以做实时处理(SparkStreaming) ①Spark集批处理、实时流处理、交互式查询、机器学习与图计算一体 ②Spark实现了一种分布 ...
分类:
其他好文 时间:
2020-01-21 19:49:30
阅读次数:
71
Hive基础(一)原创人间怪物 最后发布于2018-12-19 15:35:03 阅读数 2918 收藏展开1.Hive是什么 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成为一张数据库表,并提供类SQL的查询功能。可以将sql语句转化为MapReduce任务进行运行。H ...
分类:
其他好文 时间:
2020-01-20 18:44:17
阅读次数:
86
Shuffle基本流程 spark shuffle从总体来讲分成两部分,shuffle write和shuffle reader,如下图所示,看到这里,就明白了为什么spark性能优化的时候建议宁可broadcast也不要shuffle,broadcast好歹还是内存操作,网络上大一点压力(每个节点... ...
分类:
其他好文 时间:
2020-01-19 09:27:09
阅读次数:
63
一、运行速度方面: Spark把中间数据放到内存中,迭代运算效率高。 Hadoop MapReduce将计算结果保存到磁盘上,这样会影响整体速度,而Spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。 二、容错方面: Spark引进了弹性分布式数据集RDD ...
分类:
其他好文 时间:
2020-01-18 21:41:13
阅读次数:
106