Hive函数大全–完整版 现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它启动MapReduce的时间相当长,但是它太方便、 ...
分类:
其他好文 时间:
2020-07-28 14:21:17
阅读次数:
191
尚硅谷大数据技术之HBase (作者:尚硅谷大数据研发部) 版本:V1.2 第1章 HBase简介 1.1 什么是HBase HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。 官方网站:http://hb ...
分类:
其他好文 时间:
2020-07-27 16:06:52
阅读次数:
97
Hadoop和HDFS内容:1.什么是HDFS文件系统? HDFS是大数据开源框架hadoop的组件之一,全称(Hadoop Distributed File System),它是一个分布式文件系统,由多台服务器联合起来实现文件存储功能,通过目录树来定位文件,集群中的服务器都有有各自的角色. 2.h ...
分类:
其他好文 时间:
2020-07-26 23:17:20
阅读次数:
88
1 Hadoop是什么1.hadoop是一个由Apache基金会所开发的分布式系统基础架构。2.主要解决,海量数据的储存和海量数据的分析计算问题。3.广义来说,hadoop通常是指一个更广泛的概念 Hadoop生态圈。 Hadoop三大发行版本Hadoop三大发行版本:Apache、Cloudera ...
分类:
其他好文 时间:
2020-07-26 23:10:55
阅读次数:
101
8.3 HDFS-HA集群配置 8.3.1 环境准备 1. 修改IP 2. 修改主机名及主机名和IP地址的映射 3. 关闭防火墙 4. ssh免密登录 5. 安装JDK,配置环境变量等 8.3.2 规划集群 表3-1 hadoop102 hadoop103 hadoop104 NameNode Na ...
分类:
其他好文 时间:
2020-07-26 23:10:23
阅读次数:
85
Hadoop 在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大,在Hadoop2.x时代,增加了Yarn。Yam只负责资源的调度,MapReduce只负责运算。 Hadoop运行模式 本地模式、伪模式以及完全分布式模式。 3.格式化 只能格式化 ...
分类:
其他好文 时间:
2020-07-26 23:02:06
阅读次数:
67
HDFS概述 HDFS产出背景及定义 HDFS优缺点 HDFS组成架构 HDFS文件块大小(面试重点) MapReduce概述 MapReduce定义 MapReduce优缺点 优点 缺点 MapReduce核心思想 1)分布式的运算程序往往需要分成至少2个阶段。 2)第一个阶段的MapTask并发 ...
分类:
其他好文 时间:
2020-07-26 23:01:30
阅读次数:
83
Hadoop是什么?1.hadoop是一个由Apache基金会所开发的分布式系统基础架构。2.主要解决,海量数据的储存和海量数据的分析计算问题。3.广义来说,hadoop通常是指一个更广泛的概念 Hadoop生态圈。 Hadoop三大发行版本Hadoop三大发行版本:Apache、Cloudera、 ...
分类:
其他好文 时间:
2020-07-26 22:58:58
阅读次数:
69
1 Hadoop是什么 1.hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2.主要解决,海量数据的储存和海量数据的分析计算问题。 3.广义来说,hadoop通常是指一个更广泛的概念 Hadoop生态圈。 Hadoop三大发行版本 Hadoop三大发行版本:Apache、Clou ...
分类:
其他好文 时间:
2020-07-26 22:58:28
阅读次数:
95
1.1 MapReduce定义 1.2 MapReduce优缺点 1.2.1 优点 1.2.2 缺点 1.3 MapReduce核心思想 1)分布式的运算程序往往需要分成至少2个阶段。 2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。 3)第二个阶段的ReduceTask并发实例互不 ...
分类:
其他好文 时间:
2020-07-26 19:40:01
阅读次数:
67