Hadoop配置主要事项
1、 保证Master和Slave能够ping通;
2、 配置/etc/hosts文件;
3、 能够ssh无密码切换各台主机;
4、 安装sun公司的jdk,在/etc/profile中设置好环境变量;
5、 下载Hadoop,安装、配置、搭建Hadoop集群;
1.Hadoop简介
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。...
分类:
其他好文 时间:
2015-03-28 17:25:24
阅读次数:
173
读取文件:
下图是HDFS读取文件的流程:
这里是详细解释:
1.当客户端开始读取一个文件时,首先客户端从NameNode取得这个文件的前几个block的DataNode信息。(步骤1,2)
2.开始调用read(),read()方法里,首先去读取第一次从NameNode取得的几个Block,当读取完成后,再去NameNode拿下一批Block的...
分类:
其他好文 时间:
2015-03-09 22:35:35
阅读次数:
209
概念:
HDFS会把一个很大的文件分块(与传统的文件系统类似),存放在不同的DataNode上。不过这个块是个逻辑概念,比较大,默认是64M。
Hadoop以“管理者-工作者”模式运行。NameNode就是管理者,它保存了文件系统中所有文件以及目录信息。也记录了每个文件的分块信息。但这些分块具体在哪些机器上存储则由DataNode自己上报。
容错:
NameNode的容错:
所有的文...
分类:
其他好文 时间:
2015-03-09 22:33:56
阅读次数:
267
Hadoop不是万能的,有些场景适用,有些不适用。
Hadoop设计的目的主要包括下面几个方面,也就是所谓的适用场景:
1:超大文件
可以是几百M,几百T这个级别的文件。
2:流式数据访问
Hadoop适用于一次写入,多次读取的场景,也就是数据复制进去之后,长时间在这些数据上进行分析。
3:商业硬件
也就是说大街上到处都能买到的那种硬件,这样的硬件故...
分类:
其他好文 时间:
2015-03-09 22:33:56
阅读次数:
170
为了学习这部分的功能,我们这里的linux都是使用root用户登录的。所以每个命令的前面都有一个#符号。 伪分布模式安装步骤: 关闭防火墙 修改ip地址 修改hostname 设置ssh自动登录 安装JDK 安装hadoop 1. 关闭防火墙 具体的操作过程参见博文:我用过的Linux命令--关闭防...
分类:
其他好文 时间:
2015-03-04 16:52:42
阅读次数:
129