大数据概述 一.用图表描述Hadoop生态系统的各个组件及其关系。 Hadoop生态系统除了核心的HDFS和MapReduce以外,Hadoop生态系统还包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari等功能组件。 (1).HDFS:具有处理超 ...
分类:
其他好文 时间:
2021-03-03 12:14:24
阅读次数:
0
1.用图表描述Hadoop生态系统的各个组件及其关系。 Hadoop生态系统除了核心的HDFS和MapReduce以外,Hadoop生态系统还包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari等功能组件。 (1).HDFS:具有处理超大数据、流式 ...
分类:
其他好文 时间:
2021-03-02 12:28:59
阅读次数:
0
1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 HDFS(Hadoop分布式文件系统)是Hadoop体系中 数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于 ...
分类:
其他好文 时间:
2021-03-02 12:24:42
阅读次数:
0
1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 Hadoop对应于Google三驾马车:HDFS对应于GFS,即分布式文件系统,MapReduce即并行计算框架,HBase对应于 ...
分类:
其他好文 时间:
2021-03-02 12:20:23
阅读次数:
0
1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 Hadoop对应于Google三驾马车:HDFS对应于GFS,即分布式文件系统,MapReduce即并行计算框架,HBase对应于 ...
分类:
其他好文 时间:
2021-03-02 12:10:47
阅读次数:
0
面试题 一、Hadoop 1.Hadoop面试题总结(一) 2.Hadoop面试题总结(二)——HDFS 3.Hadoop面试题总结(三)——MapReduce 4.Hadoop面试题总结(四)——YARN 5.Hadoop面试题总结(五)——优化问题 二、Zookeeper 1.Zookeeper ...
分类:
其他好文 时间:
2021-03-02 11:41:45
阅读次数:
0
1.概述 在大数据的浪潮下,时时刻刻都会产生大量的数据。比如社交媒体、博客、电子商务等等,这些数据会以不同的类型存储在不同的平台里面。为了执行ETL(提取、转换、加载)操作,需要一个消息中间件系统,该系统应该是异步和低耦合的,即来自各种存储系统(如HDFS、Cassandra、RDBMS等)的数据可 ...
分类:
其他好文 时间:
2021-03-01 13:50:00
阅读次数:
0
前言 昨天还是周末,公司群里就有人@,说集群有问题了,敲完Hive一直卡在那里进不去,于是我很快登上WebUi,看到了这么一幕:这台节点的磁盘满了,其他的数据分布都比较平均 为什么会这样 这里就不得不说一下HDFS复本存放策略了: namenode如何选择在哪个datanode存储复本(replic ...
分类:
其他好文 时间:
2021-02-20 12:16:37
阅读次数:
0
1、概念 HBase是一个分布式的NoSQL数据库,其特点高可靠、高性能、面向列、可伸缩。 适合存储大表数据 ,并且可实时读写大表数据。大表:表的规模可以达到数十亿行以及数百万列 表结构稀疏。稀疏:对于为空的列,并不占用存储空间 数据底层存储于Hadoop HDFS分布式文件系统。 利用ZooKee ...
分类:
其他好文 时间:
2021-02-19 13:36:07
阅读次数:
0
1 RDD基础知识 1.1 Spark的RDD五大特性 1.1.1 A list of partitions RDD是一个由多个partition(某个节点里的某一片连续的数据)组成的的List;将数据加载为RDD时,一般一个hdfs里的block会加载为一个partition。 对于RDD来说,每 ...
分类:
其他好文 时间:
2021-01-25 11:30:09
阅读次数:
0