标签:
1.hadoop1.0与hadoop2.0的区别:
hadoop1.0生态如下图:
hadoop2.0生态:
2.HDFS描述:HDFS是google的GFS的开源克隆,HDFS的架构如下图:
1) NameNode:管理HDFS的名称空间,管理数据块映射信息,配置副本策略,处理客户端读写请求。
2) StandbyNameNode:NameNode的热备,定期合并fsimage和fsedits,推送给NameNode,当Active NameNode出现故障时,快速切换为新的 Active NameNode。
3) Datanode:存储实际的数据块,执行数据块读/写。
4) Client:文件切分,与NameNode交互,获取文件位置信息,与DataNode交互,读取或者写入数据,管理HDFS,访问HDFS。
优点:高容错性;适合批处理;适合大数据处理;流式文件访问;可构建在廉价机器上。
缺点:低延迟数据访问,比如毫秒级,低延迟与高吞吐率;小文件存取,占用NameNode大量内存,寻道时间超过读取时间;并发写入、文件随机修改一个文件只能有一个写 者,仅支持append。
3.HDFS的数据形式
文件被切分成固定大小的数据块,默认数据块大小为64MB,可配置块的大小,若文件大小不到64MB,则单独存成一个block。一个文件存储方式按大小被切分成若干个block,存储到不同节点上,默认情况下每个block有三个副本。
HDFS数据写流程:
HDFS数据读流程:
4.MapReduce:是google的MapReduce的开源克隆,适合PB级以上海量数据的离线处理。
MapReduce的计算框架:
5.YARN:Hadoop 2.0新增系统,负责集群的资源管理和调度,使得多种计算框架可以运行在一个集群中,自带了多种多用户调度器,适合共享集群环境。
YARN架构:
6.HDFS的shell操作:
Hadoop的shell命令在hadoop的bin目录下,用hdfs命令可以查看HDFS文件系统中的命令,如下图:
dfsadmin:在bin目录下hadoop dfsadmin命令选项如下图:
dfs:在bin目录下hadoop dfs命令选项如下图:
fsck:检查文件属性命令,其操作如下图:
标签:
原文地址:http://www.cnblogs.com/xp12/p/4204853.html