码迷,mamicode.com
首页 > 其他好文 > 详细

hadoop的简述

时间:2016-01-01 16:55:00      阅读:759      评论:0      收藏:0      [点我收藏+]

标签:

一、大数据hadoop的学习框架技术分享
技术分享
二、云计算与大数据
    云计算的架构
技术分享
问题一、为了解决企业中的业务问题,我们开发人员处于第二层。
问题二、云计算与大数据的关系与区别(待解决)



三、大数据与机器学习
技术分享
    模式识别源于工业界
    数据挖掘:工具+存储
    统计学习:偏数学方面多
    计算机视觉:图像识别+机器学习
    语音识别:语音识别+机器学习
    自然语言处理:文字识别+机器学习

    随着大数据的发展,运算处理能力随着随着加强。从而让,机器学习的发展也越来越快了。

四、什么是Hadoop?
    Hadoop是适合大数据的分布式存储与计算平台。
        (hadoop的作者是:Doug Cutting、他受Google的三篇论文的启发,搞出了个这么牛逼的Hadoop)

    1.数据的分布式存储
技术分享技术分享
   ---| 为什么会出现这样的数据存储系统?
            因为,当数据量越来越多的时候,如果只是增加单台服务器的存储容量,到了后面,随着容量的增加,服务器的价格随着指数增长,这样并不经济划算。因此,选择增加多台服务器来分别存储数据。
    ---|当服务器的数量增多的时候,如何快速的找到属于自己的数据呢?
            这个问题非常重要,为了解决这个问题,就出现了文件管理系统。这个文件管理系统中,仅仅存放了所有数据的索引,映射关系。当客户端想要读取自己要的数据的时候,就在文件系统中检索,找到这个映射关系后,就直接去对应的服务器中读取数据。
    ---|分布式存储系统必须跨服务器

    2、命名空间与主从式结构
        在分布式文件管理系统中,分散在不同节点中的数据可能属于同一个文件,为了方便的组织管理众多的文件,把文件可以放到不同的文件夹中,文件夹之间可以一级一级的包含。这样的组织形式称为命名空间(namespace)。命名空间管理着整个服务器集群的所有文件。

        集群中不同的节点承担着不同的职责。负责命名空间职责的节点我们称为主节点(master node)。负责存储真实数据职责的节点我们称为从节点(slave node)。主节点负责管理文件系统中的文件结构。从节点负责存储真实的数据,这样的结构,我们称为主从式结构(master-slave).
。用户操作时,应该先和主节点打交道。查询数据在哪些从节点上存储,然后再从从节点中读取数据。在主节点,为了加快用户访问的速度,会把把整个命名空间的信息都放到内存中,当存储的文件越来越多的时候,那么主节点就需要越多的内存空间。在从节点存储数据时,有的原始数据文件可能很大,有的可能很小。大小不一的文件不容易管理,那么可以抽象出一个单独的存储文件单位,称为块(block)。数据存放在集群中,可能因为网络原因或者节点硬件原因造成访问失败,最好采用副本(replication)机制。把数据同时备份到多台节点中,这样数据就安全了,数据丢失或者访问失败的概率就笑了。
            (关键字:主从节点的职责,主从式结构。为了提高访问速度主节点信息存放到内存中,为了方便大小不一的文件管理,抽象出块。为了数据安全,采用副本机制。)

    3、数据的分布式计算
    技术分享
为什么会有数据的分布式计算?
    因为数据量非常多的时候,所有的数据都在一个机器上运算,会给机器造成非常大的压力,并且效率也低。为了解决这个问题,我们让数据在各自的节上先进行运算,这是第一阶段。然后再把各个节点运算的数据汇总起来,再进行运算,这就是第二阶段。
    分布是计算提高了计算的速度,也保证了数据的完整性。

   4、分布式系统中的软件和硬件。
        一个问题,我们平常所说的服务器是软件还是硬件?
            很明显,在不同的情境下,服务器可能是软件,可能是硬件。所以看下面
   ---| 各种分布式框架是软件层面的设计
   ---|当把这些框架部署到服务器集群时,考虑的是硬件方面。
   ---|分布式框架可以部署在一台机器上,也可以部署在集群上。

五、Hadoop1和Hadoop2
    1.hadoop1的核心项目
            Hdfs:Hadoop Distributed File System 分布式文件管理系统
            MapReduce:分布式计算模型
    2.hadoop2的核心项目
            Hdfs:分布式文件管理系统(与hadoop1的hdfs有不同之处)
            Yarn:资源管理平台,在上面运行分布式计算,典型的计算模型有MapReduce、Storm、Spark等(这是hadoop2新增的部分)
            MapReduce:分布式计算模型(与hadoop1的mapreduce也有不同之处)
    3.简单介绍hadoop2的核心项目
            HDFS的架构:负责数据的分布式存储
            主从结构:
                    主节点、可以有2个:namenode(接受用户的操作请求,是用户操作的入口。维护文件系统的目录结构,也就是命名空间)
                    从节点、有很多个:datanode(存储文件)
            Yarn的架构:资源的调度与管理平台
            主从式结构:
                    主节点、可以有2个:ResourceManager(集群资源的分配与调度 mapreduce,spark等应用,必须实现Application接口,才能被RM管理)
                    从节点、可以有很多个:NodeManager(单节点资源的管理 )
            MapReduce的架构:依赖磁盘IO的批处理极端模型
            主从结构:
                    主节点、只有一个:JobTracker(接收客户提交的计算任务,把计算任务分给TaskTracker执行,监控TaskTracker的执行情况)
                    从节点、有很多个:TaskTracker(执行JobTracker分配的计算任务)
       4.hadoop1中的MapReduce与hadoop2中的MapReduce的不同
    技术分享
    说明:在hadoop1中还没有Yarn架构,因此也就没有管理资源的节点

六、Hadoop的特点
            扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。
            成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。
            高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。
            可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。

七、Hadoop集群的物理分布
技术分享
        单节点的物理结构
技术分享




hadoop的简述

标签:

原文地址:http://www.cnblogs.com/hsw-time/p/5093448.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!