前言正如我在前面的文章中曾经写过,在HDFS中存在着两大关系模块,一个是文件与block数据块的关系,简称为第一关系,但是相比于第一个关系清晰的结构关系,HDFS的第二关系就没有这么简单了,第二关系自然是与数据节点相关,就是数据块与数据节点的映射关系,里面的有些过程的确是错综复杂的,这个也很好理解嘛,本身block块就很多,而且还有副本设置,然后一旦集群规模扩大,数据节点的数量也将会变大,如何处理...
分类:
其他好文 时间:
2015-08-19 00:40:37
阅读次数:
199
摘要
我们开发了 Ceph,一种分布式文件系统。该文件系统提供极佳的性能,可靠性以及扩展性。通过专为不可靠的对象存储设备(Object Storage Device,OSDs)所组成的异构、动态集群而设计的准随机数据分配算法(CRUSH),利用其替代文件分配表,Ceph 将数据与元数据进行了最大程度地分离。通过将数据分布,失效检测恢复指定给运行特殊本地对象文件系统的半自动化的OSDs的方式来使设...
分类:
其他好文 时间:
2015-08-18 19:29:38
阅读次数:
239
HBase是Apache Hadoop项目下的一个子项目,它以GoogleBigTabale为原型,设计实现了高可靠性、高可扩展性、实现读写的列存储数据库,他的本质实际上是一张稀疏的大表,用来存储粗粒度的结构化数据,并且能够通过简单地增加节点来实现系统的线性扩展。
HBase运行在分布式文件系统HDFS之上,利用它可以在廉价PC Server上搭建。HBase集群中通常包含两种...
分类:
Web程序 时间:
2015-08-15 18:29:56
阅读次数:
168
分布式文件系统
[hadoop]
KFS-Kosmos File System
fasthdf
介绍:http://www.programmer.com.cn/4380/
参考:
HDFS和KFS 比较分布式数据库
HBASE
hypertable
参考:
Hypertable 简介 (一个 C++ 的Bigtable开源实现) 开源云系统
OpenStack
参考:
云存储系统设计...
分类:
其他好文 时间:
2015-08-15 11:55:48
阅读次数:
137
摘要:
Tachyon是一种分布式文件系统,可以借助集群计算框架使得数据以内存的速度进行共享。当今的缓存技术优化了read过程,但是,write过程因为需要容错机制,就需要通过网络或者是磁盘进行复制操作。Tachyon通过将“血统”技术引入到存储层进而消除了这个瓶颈。创建一个长期的以“血统机制”为基础的存储系统的关键挑战是失败情况发生的时候及时地进行数据恢复。Tachyon通...
分类:
其他好文 时间:
2015-08-13 18:10:01
阅读次数:
203
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,...
分类:
数据库 时间:
2015-08-13 00:49:32
阅读次数:
359
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。
HDFS的体系架构
整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持。
HDFS采用主从(Maste...
分类:
其他好文 时间:
2015-08-12 19:36:08
阅读次数:
110
HDFS原理
HDFS(Hadoop Distributed File System)是一个分布式文件系统,是谷歌的GFS山寨版本。它具有高容错性并提供了高吞吐量的数据访问,非常适合大规模数据集上的应用,它提供了一个高度容错性和高吞吐量的海量数据存储解决方案。
高吞吐量访问:HDFS的每个Block分布在不同的Rack上,在用户访问时,HDFS会计算使用最近和访问量最小的服务器给用户提...
分类:
其他好文 时间:
2015-08-12 13:21:12
阅读次数:
110
FastDFS是为互联网应用量身定做的一套分布式文件存储系统,非常适合用来存储用户图片、视频、文档等文件。对于互联网应用,和其他分布式文件系统相比,优势非常明显。具体情况大家可以看相关的介绍文档,包括FastDFS介绍PPT等等。出于简洁考虑,FastDFS没有对文件做分块存储,因此不太适合分布式计...
分类:
其他好文 时间:
2015-08-11 18:02:41
阅读次数:
167
1.Google文件系统(GFS)
使用一堆廉价的商用计算机支撑大规模数据处理。
GFSClient: 应用程序的访问接口
Master(主控服务器):管理节点,在逻辑上只有一个(还有一台“影子服务器“,在主控服务器失效时提供元数据,但并不是完整的热备服务器),保存系统的元数据,负责整个文件系统的管理。
Chunk Server(数据库服务器):负责具体的存...
分类:
其他好文 时间:
2015-08-10 18:08:04
阅读次数:
219