hadoop学习二：hadoop基本架构与shell操作

时间：2015-01-06 13:48:52 阅读：267 评论：0 收藏：0 [点我收藏+]

标签：

1.hadoop1.0与hadoop2.0的区别：

　　技术分享

　　hadoop1.0生态如下图：

　　技术分享

　　hadoop2.0生态：

　　技术分享

2.HDFS描述：HDFS是google的GFS的开源克隆，HDFS的架构如下图：

　　技术分享

　　1) NameNode：管理HDFS的名称空间，管理数据块映射信息，配置副本策略，处理客户端读写请求。

　　2) StandbyNameNode:NameNode的热备，定期合并fsimage和fsedits，推送给NameNode，当Active NameNode出现故障时，快速切换为新的 Active NameNode。

　　3) Datanode:存储实际的数据块，执行数据块读/写。

　　4) Client:文件切分，与NameNode交互，获取文件位置信息，与DataNode交互，读取或者写入数据，管理HDFS，访问HDFS。

　　优点：高容错性；适合批处理；适合大数据处理；流式文件访问；可构建在廉价机器上。

　　缺点：低延迟数据访问，比如毫秒级，低延迟与高吞吐率；小文件存取，占用NameNode大量内存，寻道时间超过读取时间；并发写入、文件随机修改一个文件只能有一个写　　者，仅支持append。

3.HDFS的数据形式

　　文件被切分成固定大小的数据块，默认数据块大小为64MB，可配置块的大小，若文件大小不到64MB，则单独存成一个block。一个文件存储方式按大小被切分成若干个block，存储到不同节点上，默认情况下每个block有三个副本。

　　HDFS数据写流程：

　　技术分享

　　HDFS数据读流程：

　　技术分享

4.MapReduce：是google的MapReduce的开源克隆，适合PB级以上海量数据的离线处理。

　　MapReduce的计算框架：

　　技术分享

5.YARN：Hadoop 2.0新增系统，负责集群的资源管理和调度，使得多种计算框架可以运行在一个集群中，自带了多种多用户调度器，适合共享集群环境。

　　YARN架构：

　　技术分享

6.HDFS的shell操作：

　　Hadoop的shell命令在hadoop的bin目录下，用hdfs命令可以查看HDFS文件系统中的命令，如下图：

　　技术分享

　　dfsadmin：在bin目录下hadoop dfsadmin命令选项如下图：

　　技术分享　　

　　dfs：在bin目录下hadoop dfs命令选项如下图：

　　技术分享

　　fsck:检查文件属性命令，其操作如下图：

　　技术分享

标签：

原文地址：http://www.cnblogs.com/xp12/p/4204853.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行