第1章 HDFS概述 1.1 HDFS产出背景及定义 1.2 HDFS优缺点 1.3 HDFS组成架构 1.4 HDFS文件块大小(面试重点) 第2章 HDFS的Shell操作(开发重点) 1.基本语法 bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实... ...
分类:
其他好文 时间:
2019-04-02 09:20:50
阅读次数:
267
第1章 大数据概论 1.1 大数据概念 大数据概念如图2-1 所示。 图2-1 大数据概念 1.2 大数据特点(4V) 大数据特点如图2-2,2-3,2-4,2-5所示 图2-2 大数据特点之大量 图2-3 大数据特点之高速 图2-4 大数据特点之多样 图2-5 大数据特点之低价值密度 1.3 大数... ...
分类:
其他好文 时间:
2019-04-02 09:15:39
阅读次数:
216
大数据技术正飞速地发展着,催生出一代又一代快速便捷的大数据处理引擎,无论是Hadoop、Storm,还是后来的Spark、Flink。然而,毕竟没有哪一个框架可以完全支持所有的应用场景,也就说明不可能有任何一个框架可以完全取代另一个。今天,将从几个项出发着重对比Spark与Flink这两个大数据处理 ...
分类:
其他好文 时间:
2019-03-28 15:41:15
阅读次数:
127
第1章 Kafka概述1.1 消息队列1.2 为什么需要消息队列1.3 什么是Kafka1.4 Kafka架构第2章 Kafka集群部署2.1 环境准备2.1.1 集群规划2.1.2 jar包下载2.2 Kafka集群部署2.3 Kafka命令行操作第3章 Kafka工作流程分析3.1 Kafka ...
2019年越来越多的人认识到数据分析的重要性,而国家也为了促进大数据信息建设的发展,对各地建设大数据出台相关政策。大数据技术能够将海量数据中隐藏的信息和知识挖掘出来,为人类社会、经济活动等方面提供依据,提高各个领域的运行效率,甚至整个社会经济的集约化程度。 大数据分析的过程包括:大数据采集——预处理 ...
分类:
其他好文 时间:
2019-03-05 17:11:09
阅读次数:
165
一、知识梳理1.1、背景表结构1.1.1、order by1.1.2、sort by1.1.3、distribute by1.1.4、cluster by1.2、行转列、列转行(UDAF 与 UDTF)1.2.1、行转列1.2.2、列转行1.3、建表时的数组操作1.4、orc 存储1.5、Hive ...
分类:
其他好文 时间:
2019-03-03 09:41:48
阅读次数:
209
第8章 压缩和存储(Hive高级)8.1 Hadoop源码编译支持Snappy压缩8.1.1 资源准备8.1.2 jar包安装8.1.3 编译源码8.2 Hadoop压缩配置8.2.1 MR支持的压缩编码8.2.2 压缩参数配置8.3 开启Map输出阶段压缩8.4 开启Reduce输出阶段压缩8.5 ...
分类:
其他好文 时间:
2019-02-28 19:54:13
阅读次数:
193
第1章 Hive入门1.1 什么是Hive1.2 Hive的优缺点1.2.1 优点1.2.2 缺点1.3 Hive架构原理1.4 Hive和数据库比较1.4.1 查询语言1.4.2 数据存储位置1.4.3 数据更新1.4.4 索引1.4.5 执行1.4.6 执行延迟1.4.7 可扩展性1.4.8 数 ...
分类:
其他好文 时间:
2019-02-25 09:20:30
阅读次数:
199
大数据现在是越来越火了,很多人都热衷于大数据的学习,也是因为当前大数据的应用领域有很多,那么大数据应用领域都有哪些呢?我们在这篇文章中给大家介绍一下这些内容。 ...
分类:
其他好文 时间:
2019-02-21 15:52:03
阅读次数:
207
第6章 Hadoop企业优化(重中之重)6.1 MapReduce 跑的慢的原因6.2 MapReduce优化方法6.2.1 数据输入6.2.2 Map阶段6.2.3 Reduce阶段6.2.4 I/O传输6.2.5 数据倾斜问题6.2.6 常用的调优参数6.3 HDFS小文件优化方法6.3.1 H ...
分类:
其他好文 时间:
2019-02-21 00:11:15
阅读次数:
172