码迷,mamicode.com
首页 > 其他好文 > 详细

Hadoop从2.2.0到2.6.0

时间:2015-04-18 16:08:24      阅读:139      评论:0      收藏:0      [点我收藏+]

标签:


Hadoop2.2.0

GA release 通用版本,Hadoop2.2.0就是一个通用版本

Hadoop2.2.0是从Hadoop1.1.0升级过来的,增加了以下特性:

  1.增加了YARN;

  2.HDFS增加了HA;

  3.HDFS增加了Federation;

  4.HDFS增加了快照 ;

  5.HDFS的读写使用了NFSv3;

  6.Hadoop可以支持运行在Windows;

  7.和Hadoop1的MR二进制兼容性 ;

  8.增加了一些和生态系统中其他产品的测试类。

YARN是“Yet Another Resource Negotiator”的简称,它是Hadoop2.0引入的一个全新的通用资源管理系统,可在其上运行各种应用程序和框架,比如MapReduce、Tez、Storm等,YARN是在MRv1的基础上衍化而来的,相似的资源管理系统还有mesos;

HA是High Availability,是为了解决HDFS 的NameNode单点故障问题,方案是通过主备切换,主备NameNode共享元数据信息;

HDFS Federation是为了解决HDFS NameNode单点内存受限问题,它允许集群中存在多个NameNode,每个NameNode分管一部分目录;

HDFS 快照是指HDFS文件系统的某一时刻的只读镜像,它的出现使得管理员可定时为重要文件或者目录做快照,以防止数据误删、丢失等;

通过NFSv3访问HDFS,NFS允许用户像访问本地文件系统一样访问远程文件系统,简化了HDFS的使用,这是通过引入了NFS gateway服务实现的,将NFS协议转换为HDFS访问协议

技术分享

 


Hadoop2.3.0

新特性:

  1.异构层次化存储架构;

  2.DateNode 缓存;

  3.MR的自动化部署。

在之前的版本,HDFS的存储介质是磁盘,不管是热数据还是冷数据,随着新型介质的日益成熟,HDFS开始支持异构介质,即同一个Hadoop集群可以用同时使用多种存储介质,用户可根据需要将不用的数据存在不同的介质中,比如热点数据存在SSD上,冷数据存在磁盘上;

HDFS DateNode之前没有考虑数据缓存,随着内存计算框架的兴起,Hadoop也不想把自己局限在离线处理和分析上,而是能够同时指出离线分析和在线分析,为了指出在线处理,就要降低延迟,提高性能,其中个人觉得可观的就是Tachyon存储系统;

在Hadoop 2.0中,MapReduce jar包是同YARN和HDFS jar包打包在一起的,部署Hadoop时会一同被分发到各个节点上的,这实际上违背了YARN的设计初衷。YARN是一个资源管理系统,其上面所有应用程序不需要事先部署到各个节点上,只需在客户端存在一份jar包,然后由YARN自动分发到各个节点上即可,为此,Hadoop 2.3.0对此进行了修正。


Hadoop2.4.0

新特性:

  1.HDFS支持ACL;

  2.HDFS支持在线升级;

  3.HDFS支持https协议;

  4.


Hadoop2.4.1

 


Hadoop2.5.0

 


Hadoop2.5.1

 


Hadoop2.5.2

 


Hadoop2.6.0

 


大部分内容分摘自官网(http://hadoop.apache.org/releases.html#News)和董的博客(http://dongxicheng.org/)

Hadoop从2.2.0到2.6.0

标签:

原文地址:http://www.cnblogs.com/admln/p/hadoop220-260.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!