码迷,mamicode.com
首页 > 系统相关 > 详细

hadoop学习二:hadoop基本架构与shell操作

时间:2015-01-06 13:48:52      阅读:267      评论:0      收藏:0      [点我收藏+]

标签:

1.hadoop1.0与hadoop2.0的区别:

  技术分享

  hadoop1.0生态如下图:

  技术分享

  hadoop2.0生态:

  技术分享

2.HDFS描述:HDFS是google的GFS的开源克隆,HDFS的架构如下图:

  技术分享

  1) NameNode:管理HDFS的名称空间,管理数据块映射信息,配置副本策略,处理客户端读写请求。

  2) StandbyNameNode:NameNode的热备,定期合并fsimage和fsedits,推送给NameNode,当Active NameNode出现故障时,快速切换为新的 Active NameNode。

  3) Datanode:存储实际的数据块,执行数据块读/写。

  4) Client:文件切分,与NameNode交互,获取文件位置信息,与DataNode交互,读取或者写入数据,管理HDFS,访问HDFS。

  优点:高容错性;适合批处理;适合大数据处理;流式文件访问;可构建在廉价机器上。

  缺点:低延迟数据访问,比如毫秒级,低延迟与高吞吐率;小文件存取,占用NameNode大量内存,寻道时间超过读取时间;并发写入、文件随机修改一个文件只能有一个写  者,仅支持append。

3.HDFS的数据形式

  文件被切分成固定大小的数据块,默认数据块大小为64MB,可配置块的大小,若文件大小不到64MB,则单独存成一个block。一个文件存储方式按大小被切分成若干个block,存储到不同节点上,默认情况下每个block有三个副本。

  HDFS数据写流程:

  技术分享

  HDFS数据读流程:

  技术分享

4.MapReduce:是google的MapReduce的开源克隆,适合PB级以上海量数据的离线处理。

  MapReduce的计算框架:

  技术分享

5.YARN:Hadoop 2.0新增系统,负责集群的资源管理和调度,使得多种计算框架可以运行在一个集群中,自带了多种多用户调度器,适合共享集群环境。

  YARN架构:

  技术分享

6.HDFS的shell操作:

  Hadoop的shell命令在hadoop的bin目录下,用hdfs命令可以查看HDFS文件系统中的命令,如下图:

  技术分享

  dfsadmin:在bin目录下hadoop dfsadmin命令选项如下图:

  技术分享  

  dfs:在bin目录下hadoop dfs命令选项如下图:

  技术分享

  fsck:检查文件属性命令,其操作如下图:

  技术分享

hadoop学习二:hadoop基本架构与shell操作

标签:

原文地址:http://www.cnblogs.com/xp12/p/4204853.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!