既然HDFS 是存取数据的分布式文件系统,那么对HDFS的操作,就是对文件系统的基本操作,比如文件的创建、修改、删除、修改权限等,文件夹的创建、删除、重命名等。对HDFS 的操作命令类似于Linux 的shell 对文件的操作,只是在HDFS中,hadoop fs是主命令,其他像ls,mv,cp都是...
分类:
其他好文 时间:
2014-07-16 23:04:42
阅读次数:
372
HDFS中的NameNode、DataNode、Secondery NameNode是如何在磁盘上组织和存储持久化数据的?下面将分别进行介绍。注意,这里主要介绍的是Hadoop 2.0以前的版本,Hadoop 2.0以后版本文件结构稍微有一些变化,因为目前我们还没有使用hadoop 2.0,所以后面...
分类:
其他好文 时间:
2014-07-12 08:52:04
阅读次数:
544
hadoop2分布式安装后总是报这个bug2014-07-06 08:22:40,506 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block pool (....
分类:
其他好文 时间:
2014-07-11 19:02:38
阅读次数:
364
我用命令:bin/hdfsnamenode-format 格式化NameNode时报下面的错:14/07/09 17:12:49 WARN namenode.NameNode: Encountered exception during format: org.apache.hadoop.hdfs.q...
分类:
其他好文 时间:
2014-07-11 11:01:55
阅读次数:
282
在执行MR将HDFS转换为HFile的时候,出现了如下异常:
14/07/09 18:02:59 INFO mapred.JobClient: map 83% reduce 0%
14/07/09 18:02:59 INFO mapred.JobClient: Task Id : attempt_201401091245_59030413_m_000001_0, Status : FAILE...
分类:
其他好文 时间:
2014-07-10 23:32:44
阅读次数:
323
1.使用命令行操作1)4个通用命令行<1>archive归档文件的创建用途:由于hadoop的设计是为了处理大数据,理想的数据应该blocksize的倍数。namenode在启动时会将所有的元数据load到内存中当大量小于blocksize的文件存在的时候,,不仅占用了大量的存储空间,也占用了大量的n..
分类:
其他好文 时间:
2014-07-10 18:56:21
阅读次数:
353
【一】HDFS简介 HDFS的基本概念1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 不同于普通文件系统的是,HDFS中,如果一...
分类:
其他好文 时间:
2014-07-10 16:51:14
阅读次数:
304
HDFS和Mapreduce是Hadoop的两大核心。整个Hadoop的体系结构主要是通过HDFS来实现分布式存储的底层支持,MapReduce来实现分布式并行任务处理的程序支持。HDFSHDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个Data...
分类:
其他好文 时间:
2014-07-10 15:36:19
阅读次数:
204
以下图1是hadoop生态图,通俗的说,就是hadoop核心模块和衍生的子项目。 图 1 Hadoop生态系统图由图可知,hadoop生态系统包括以下成员:① 各种浏览器,产生海量的Web数据;② Nutch项目,一个快速搜索海量网页的开源项目③ HDFS,Hadoop分布式文件系统,大数据的存储系...
分类:
其他好文 时间:
2014-07-10 15:32:23
阅读次数:
189
现在 Hadoop 已经发展成为包含多个子项目的集合。虽然其核心内容是 MapReduce 和Hadoop 分布式文件系统(HDFS),但 Hadoop 下的Common 、Avro、 Chukwa、Hive 、HBase等子项目也是不可或缺的。它们提供了互补性服务或在核心层上提供了更高层的服务。以...
分类:
其他好文 时间:
2014-07-10 14:57:00
阅读次数:
333