码迷,mamicode.com
首页 > 其他好文 > 详细

大数据原理架构(学习整理)

时间:2017-08-14 20:15:01      阅读:181      评论:0      收藏:0      [点我收藏+]

标签:软件   secondary   动物   jvm   关系   span   重要   分布式文件系统   通讯   

前面介绍的废话省略,记录直接的一些知识,方便了解。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

还有一个Hive,很重要!这是一个传统的SQL到MapReduce的映射器,面向传统的数据库工程师。但是不支持全部SQL。还有一个子项目叫HBase,一个非关系数据库,NoSQL数据库,数据是列存储的,提高响应速度,减少IO量,可以做成分布式集群。

ZooKeeper负责服务器节点和进程间的通信,是一个协调工具,因为Hadoop的几乎每个子项目都是用动物做logo,故这个协调软件叫动物园管理员。

学到这里,我了解到 hadoop的核心的几个东西就是  hdfs   mapreduce   hive   hbase   zookkeeper。

后面我看到了hadoop里面某某东西的后台进程,看到后台进程,我就知道学习hadoop有戏了,要入门了,我爱后台进程。

 

HDFS体系:

namenode:

        是HDFS的守护程序(一个核心程序),对整个分布式文件系统进行总控制,会纪录所有的元数据分布存储的状态信息,比如文件是如何分割成数据块的,以及这 些数据块被存储到哪些节点上,还有对内存和I/O进行集中管理,用户首先会访问Namenode,通过该总控节点获取文件分布的状态信息,找到文件分布到 了哪些数据节点,然后在和这些节点打交道,把文件拿到。故这是一个核心节点。

        自己补充一点,既然是核心节点,肯定不能单点,对不对?否则可能会使整个集群奔溃,对不对?对不对?

secondary namenode:

       辅助名称节点,或者检查点节点,它是监控HDFS状态的辅助后台程序,可以保存名称节点的副本,故每个集群都有一个,它与NameNode进行通讯,定期保存HDFS元数据快照。NameNode故障可以作为备用NameNode使用,目前还不能自动切换。但是功能绝不仅限于此。

datanode:

      叫数据节点,每台从服务器节点都运行一个,负责把HDFS数据块读、写到本地文件系统。

 

mapreduce体系:(主要两个后台进程JobTracker&TaskTracker

JobTracker:

       叫作业跟踪器,运行到主节点(Namenode)上的一个很重要的进程,是MapReduce体系的调度器。用于处理作业(用户提交的代码)的后台程序,决定有哪些文件参与作业的处理,然后把作业切割成为一个个的小task,并把它们分配到所需要的数据所在的子节点。

TaskTracker:

       叫任务跟踪器,MapReduce体系的最后一个后台进程,位于每个slave节点上,与datanode结合(代码与数据一起的原则),管理各自节点上的task(由jobtracker分配),每个节点只有一个tasktracker,但一个tasktracker可以启动多个JVM,用于并行执行map或reduce任务,它与jobtracker交互通信,可以告知jobtracker子任务完成情况。

 

 

  Master与Slave

  Master节点:运行了Namenode、或者Secondary Namenode、或者Jobtracker的节点。还有浏览器(用于观看管理界面),等其它Hadoop工具。Master不是唯一的!

  Slave节点:运行Tasktracker、Datanode的机器。

 

大数据原理架构(学习整理)

标签:软件   secondary   动物   jvm   关系   span   重要   分布式文件系统   通讯   

原文地址:http://www.cnblogs.com/leochenliang/p/7359567.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!