上篇讲述了Hadoop分布式集群环境的搭建,其实重要是HDFS分布式文件系统的搭建,MapReduce主要是需要我们程序员来进行编写算法来进行逻辑运算的。这篇就重点来讲述一下HDFS(HadoopDistribute File System,也就是Hadoop分布式文件系统)。 一、HDFS的主要设计理念: 1、存储超大文件,这里的“超大文件”是指几百MB、GB甚至TB,PB级别的...
分类:
其他好文 时间:
2015-08-28 00:50:42
阅读次数:
163
前言在文章开始,先讲个大家都经历过的事--去图书馆借书,当然,喜欢阅读的朋友也许和我一样比较喜欢借书阅读,借书阅读方便是方便,但是唯一不好的地方在于他又期限,就是deadlline,之前在我们学校有规定,如果超期为归还的书不允许借阅另外的书籍,所以要想使自己能接到新的书,就必须先归怀超期的书籍。当然这个经历本身再寻常不过了,但是我想表达的是在HDFS分布式文件系统中的租约机制与此过程有着极强的吻合...
分类:
其他好文 时间:
2015-08-27 02:18:01
阅读次数:
542
前言正如我在前面的文章中曾经写过,在HDFS中存在着两大关系模块,一个是文件与block数据块的关系,简称为第一关系,但是相比于第一个关系清晰的结构关系,HDFS的第二关系就没有这么简单了,第二关系自然是与数据节点相关,就是数据块与数据节点的映射关系,里面的有些过程的确是错综复杂的,这个也很好理解嘛,本身block块就很多,而且还有副本设置,然后一旦集群规模扩大,数据节点的数量也将会变大,如何处理...
分类:
其他好文 时间:
2015-08-19 00:40:37
阅读次数:
199
1、Hadoop核心项目:HDFS(分布式文件系统)和MapReduce(并行计算框架)2、HDFS的架构 主从结构 主节点,只有一个:namenode(接受用户操作要求;维护文件系统的目录结构;管理文件与block之间关系,block与datanode之间关系) 从节点,有很多个:d...
分类:
其他好文 时间:
2015-07-28 00:21:14
阅读次数:
179
Hadoop的两大功能:海量数据存储和海量数据分析
Hadoop2的三大核心组件是:HDFS、MapperReducer和yarn
1、HDFS:分布式文件系统海量数据存储
2、MapperReducer:运算框架,海量数据分析
3、yarn:资源调度管理集群
HDFS工作机制:基于namenode和datanode
1、namenode:响应客户端的请求;负责维护整个...
分类:
其他好文 时间:
2015-06-27 16:40:29
阅读次数:
203
Hadoop分布式文件系统(Hadoop Distributed File System, HDFS)分布式文件系统是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。
hdfs只是其中一种。适用于一次写入、多次查询的情况,不支持并发写情况,小文件不合适。2.HDFS架构HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数...
分类:
其他好文 时间:
2015-06-27 16:31:09
阅读次数:
100
Hadoop简介:
分布式、可扩展、可靠的、分布式计算框架。
组件:
common:公共组件
hdfs:分布式文件系统
yarn:运行环境
mapreduce:mr计算模型
生态系统:
Ambari:操作界面
avro:通用的序列化机制、与语言无关
cassandra:数据库
chukwa:数据收集系统
hbase:分布式大表数据库
hive:基于sql的分析系统
matout:机器学习算法库
pi...
分类:
其他好文 时间:
2015-04-05 11:59:31
阅读次数:
234
Hadoop简介:一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed FileSystem),简称HDFS。HDFS有着高容错性的特点,...
分类:
其他好文 时间:
2015-03-18 12:05:22
阅读次数:
142
首先,今天是羊年初一。祝看到这篇博文的朋友们新春快乐!身体健康!心想事成!万事胜意! 言归正传。hadoop中的两大核心分别是HDFS以及MapReduce。HDFS分布式文件系统有NameNode、DataNode以及SecondaryNameNode三种节点进程,同时MR有JobTrack...
分类:
其他好文 时间:
2015-02-19 17:28:09
阅读次数:
256
参考资料:http://os.51cto.com/art/201211/364374.htm上边这是个结构概览吧。默认情况下,一个file被分成很多个block,每个block被分配到两个rack(机架)的共3个DataNode上,也就是有两个备份。在NameNode保存了每个block对应的Dat...
分类:
其他好文 时间:
2015-02-17 14:03:20
阅读次数:
219