码迷,mamicode.com
首页 > 其他好文 > 详细

Hadoop 简介

时间:2014-10-18 18:09:35      阅读:231      评论:0      收藏:0      [点我收藏+]

标签:style   blog   http   color   使用   strong   sp   文件   数据   

前言

  本文大致介绍下Hadoop的一些背景知识,为后面深入学习打下铺垫。

什么是Hadoop

  Hadoop是一个开源分布式计算平台,它以HDFS文件系统和MapReduce计算架构为核心。

  前者能够让用户使用一些廉价的硬件搭建出分布式系统,后者则能够让用户在不需要过多了解底层架构细节的情况下,开发并行分布式应用程序。

  -- 具体含义以后会详细分析

Hadoop的作用

  具体的来说,Hadoop的作用主要在于处理海量数据,这也是为什么大数据技术中常常提到这个概念的原因。

  更具体的来说,雅虎通过它做Web搜索,跑广告系统;百度用它做搜索日志分析,网页数据挖掘;阿里用它存储海量的交易数据;移动研究院用它进行数据分析并对外提供服务。

  很多人看好它会在更多领域(如银行,医院等),更深层次,发挥出更大作用。

Hadoop的优势

  为什么Hadoop能够胜任这些工作?

  有以下几个主要原因:

    1. 高可靠性 - 能正确无误的处理数据

    2. 高扩展性 - 可以方便的加入或屏蔽计算机集群中的节点

    3. 高效性 - 能非常快速的处理数据

    4. 高容错性 - 某个节点任务失败不会影响结果

Hadoop项目结构图

  除了HDFS文件系统和MapReduce计算架构两大核心,Hadoop还提供了其他一些项目提供更多服务,这些项目也不可或缺。

  bubuko.com,布布扣

  这些项目具体的使用方法,都是日后学习的重要内容,在此不做细致介绍。

Hadoop的体系结构

  首先介绍HDFS文件系统的体系结构:

  HDFS采用M/S结构模型,Namenode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;而Datanode管理存储的数据。

  下为HDFS文件系统的体系结构图

  bubuko.com,布布扣

  多说一句,通常来说一个典型的集群环境是一台机器运行Namenode而其他每台机器运行一个Datanode。

  再介绍MapReduce计算架构的体系结构:

  MapReduce其实本质是一个非常简单易用的并行编程框架,它同样采用M/S模型,由一个单独运行在主节点的JobTracker和运行在各个从节点上的TaskTracker共同组成。

小结

  本文旨在描绘出Hadoop这头“大象”的具体轮廓,其细节在以后的文章中会具体分析,细细体会,实际应用。

 

  

 

Hadoop 简介

标签:style   blog   http   color   使用   strong   sp   文件   数据   

原文地址:http://www.cnblogs.com/scut-fm/p/4033356.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!