理论基础:Hadoop 分布式文件系统架构HDFS 负责大数据存储MapReduce 负责大数据计算namenode master守护进程datanode slaves上负责存储的进程secondarynamenode master上提供周期检查和清理任务的进程jobtracker maste...
分类:
其他好文 时间:
2014-10-03 01:34:04
阅读次数:
451
先把上节未完成的部分补全,再剖析一下HDFS读写文件的内部原理
列举文件
FileSystem(org.apache.hadoop.fs.FileSystem)的listStatus()方法可以列出一个目录下的内容。
public FileStatus[] listStatus(Path f) throws FileNotFoundException, IOException;
pu...
分类:
编程语言 时间:
2014-09-30 16:47:19
阅读次数:
271
1、集群部署介绍1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用....
分类:
其他好文 时间:
2014-09-28 14:04:02
阅读次数:
309
HDFS是Hadoop Distributed Filesystem,Hadoop分布式文件系统。
当数据大到一台机器无法存储时,就要把它分散到多台机器上去,通过网络管理多台计算机上的存储空间的文件系统,就称为分布式文件系统。网络程序的复杂性使得分布式文件系统比普通的磁盘文件系统复杂得多,例如其中最大的挑战之一就是要容错,要在其中一个或几个节点死掉后,仍能保证数据完整。
HDF...
分类:
其他好文 时间:
2014-09-05 18:13:41
阅读次数:
219
【官方文档】Hadoop分布式文件系统:架构和设计
分类:
其他好文 时间:
2014-09-01 17:19:53
阅读次数:
348
引言 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高 度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐....
分类:
其他好文 时间:
2014-08-22 12:29:26
阅读次数:
260
HBase分布式集群环境搭建成功后,连续4、5天实验客户端Map/Reduce程序开发,这方面的代码网上多得是,写个测试代码非常容易,可是真正运行起来可说是历经挫折。下面就是我最终调通并让程序在集群上运行起来的一些经验教训。 一、首先说一下我的环境: 1,集群的环境配置请见这篇博文。 2,...
分类:
其他好文 时间:
2014-08-21 16:26:54
阅读次数:
366
摘要 Hadoop分布式文件系统(HDFS)设计用来可靠的存储超大数据集,同时以高速带宽将数据集传输给用户应用。 在一个超大集群中,数以千计的服务器直接接触存储器和执行用户应用任务。通过许多服务器的分布式存储和...
分类:
其他好文 时间:
2014-08-18 12:43:04
阅读次数:
356
11、配置hadoop分布式环境! 三台机器都需要这么配置1)、将/opt/modules/hadoop-2.2.0-src重命名 mv /opt/modules/hadoop-2.2.0-src/ /opt/modules/hadoop-2.2.0-src_x32_back2)、解压64位源码ta...
分类:
其他好文 时间:
2014-08-18 09:12:03
阅读次数:
275
【课程内容】1、Hadoop分布式文件系统(HDFS)2、YARN/MapReduce的工作原理3、如何优化Hadoop机群所需要的硬件配置4、搭建Hadoop机群所需要考虑的网络因素5、Hadoop机群维护和控制6、如何利用Hadoop配置选项进行系统性能调优7、如何利用FairScheduler...
分类:
其他好文 时间:
2014-08-13 14:51:36
阅读次数:
288