好程序员大数据学习路线Hadoop学习干货分享

时间：2019-08-27 17:06:02 阅读：85 评论：0 收藏：0 [点我收藏+]

好程序员大数据学习路线Hadoop学习干货分享，Apache Hadoop 为可靠的，可扩展的分布式计算开发开源软件。
Apache Hadoop软件库是一个框架，它允许使用简单的编程模型跨计算机群集分布式处理大型数据集（海量的数据）。
包括这些模块：

Hadoop Common：支持其他Hadoop模块的常用工具。
Hadoop分布式文件系统（HDFS?）：一种分布式文件系统，可提供对应用程序数据的高吞吐量访问。
Hadoop YARN：作业调度和集群资源管理的框架。
Hadoop MapReduce：一种用于并行处理大型数据集的基于YARN的系统。

上述每个模块有自己独立的功能，而模块之间又有相互的关联。

广义上来说，HADOOP通常是指一个更广泛的概念——HADOOP生态圈
可靠，可扩展的分布式计算的开源软件，由HDFS、MapReduce、YARN组成。

HDFS
Hadoop分布式文件系统，一般由一到两个Namenode进程和若干Datanode进程组成，在实现了HA机制的HDFS中，还有ZKFC进程（一般跟NameNode进程运行在同一台计算机上）和多个JN进程。

节点
运行Namenode或Datanode进程的机器称之为节点，对应的运行Namenode进程的机器称之为Namenode节点，运行Datanode进程的机器称之为Datanode节点，这里的机器可以是物理机也可以是虚拟机。

Mapreduce
分布式并行离线计算框架，是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架，Mapreduce核心功能是将用户编写的业务逻辑代码和MR自带默认组件整合成一个完整的分布式运算程序，并发的运行在一个hadoop集群上；与HDFS解决问题的原理类似，HDFS是将大的文件切分成若干小文件，然后将它们分别存储到集群中各个主机中。同样原理，mapreduce是将一个复杂的运算切分成若个子运算，然后将它们分别交给集群中各个主机，由各个主机并行运算。

名词解释

Job ：用户的每一个计算请求称为一个作业。
Task：每一个作业，都需要拆分开了，交由多个主机来完成，拆分出来的执行单位就是任务。Task又分为如下三种类型的任务：
- Map：负责map阶段的整个数据处理流程
- Reduce：负责reduce阶段的整个数据处理流程
- MRAppMaster：负责整个程序的过程调度及状态协调
  YARN
  Yet Another Resource Negotiator（好吧，另一种资源协调者），作业调度和集群资源管理的框架，由ResourceManager和NodeManager组成，ResourceManager有两个主要组件：Scheduler和ApplicationsManager。

Scheduler
调度程序负责根据熟悉的容量，队列等约束将资源分配给各种正在运行的应用程序。调度程序是纯调度程序，因为它不执行应用程序状态的监视或跟踪。此外，由于应用程序故障或硬件故障，它无法保证重启失败的任务。调度程序根据应用程序的资源需求执行其调度功能;?它是基于资源Container的抽象概念，它包含内存，cpu，磁盘，网络等元素。

ApplicationsManager
负责接受作业提交，协商第一个容器以执行特定于应用程序的ApplicationMaster，并提供在失败时重新启动ApplicationMaster容器的服务。每个应用程序ApplicationMaster负责从Scheduler协商适当的资源容器，跟踪其状态并监视进度。

Zookeeper
分布式应用程序的分布式协调服务，由多个QuorumPeerMain进程组成，本质上这些进程功能类似，但是在zookeeper运行过程中，会由其中的一个进程充当leader角色，剩余进程充当follower角色。

znode
zookeeper内部维护的处于内存中的树状数据结构中的一个组成部分，即树状数据结构中的节点，具有权限、类型、版本等相关元信息，和子节点、父节点、自身内容等其他相关信息。zookeeper负责监控节点的变化状态，包括节点的新增、删除、内容变更、子节点变更，但是zookeeper不负责某个节点发生变化之后的动作，变化之后zookeeper可以告知这个节点的Watcher，然后由这个watcher负责处理。

HA
所谓HA，即高可用（7*24小时不中断服务）(secondarynamenode只是保证了“可靠性”)实现高可用最关键的是消除单点故障，hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA。

HDFS的HA机制详解：通过双namenode消除单点故障，双namenode协调工作的要点：
- 元数据管理方式需要改变
- 需要一个状态管理功能模块

好程序员大数据学习路线Hadoop学习干货分享

标签：单点软件库管理功能 conda 服务分布式计算机制 node res

原文地址：https://blog.51cto.com/14479068/2432970

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行