上一篇简单讲了一下HDFS,简单来说就是一个叫做“NameNode”的大哥,带着一群叫做“DataNode”的小弟,完成了一坨坨数据的存储,其中大哥负责保存数据的目录,小弟们负责数据的真正存储,而大哥和小弟其实就是一台台的电脑,他们之间通过交换机,互相联系到了一起。 其实这位大哥和这群小弟不仅...
分类:
其他好文 时间:
2014-10-19 11:34:51
阅读次数:
155
前言 本文大致介绍下Hadoop的一些背景知识,为后面深入学习打下铺垫。什么是Hadoop Hadoop是一个开源分布式计算平台,它以HDFS文件系统和MapReduce计算架构为核心。 前者能够让用户使用一些廉价的硬件搭建出分布式系统,后者则能够让用户在不需要过多了解底层架构细节的情况下,开...
分类:
其他好文 时间:
2014-10-18 18:09:35
阅读次数:
231
学习云计算,必然得了解Hadoop,而Hadoop中的HDFS(分布式文件系统)是一个基础,接下来就写一下我所理解的HDFS。 有一个很有特别的村庄,村庄里面有一个很牛逼的人,叫做“大哥”,村民们都信得过他,于是会把自己家的粮食、农具等等各种各样的东西“打包成一个大的包裹”让“大哥”给存着,等...
分类:
其他好文 时间:
2014-10-18 11:01:31
阅读次数:
255
Hadoop的一大基本原则是移动计算的开销要比移动数据的开销小。因此,Hadoop通常是尽量移动计算到拥有数据的节点上。这就使得Hadoop中读取数据的客户端DFSClient和提供数据的Datanode经常是在一个节点上,也就造成了很多“Local Reads”。本文将介绍在优化Local Reads的一些方案。...
分类:
其他好文 时间:
2014-10-17 18:50:01
阅读次数:
310
分区考虑,不要使用LVMroot-->40Gvar-->100Gswap--2倍系统内存RAM-->8GBMasternode:RAID10,dualEthernetcards,dualpowersupplies,etc.Slavenode:1.RAIDisnotnecessary2.HDFS分区,notusingLVM/etc/fstab--ext3defaults,noatime挂载到/data/N/dfs/dn,forN=0,1,2...(onep..
分类:
其他好文 时间:
2014-10-17 15:43:40
阅读次数:
844
hadoop常见错误集锦:
1.DataXceiver error processing WRITE_BLOCK operation
ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: 192-168-11-58:50010:DataXceiver error processing WRITE_BLOCK operation sr...
分类:
其他好文 时间:
2014-10-17 15:39:14
阅读次数:
247
Hadoop分布式文件系统是设计初衷是可靠的存储大数据集,并且使应用程序高带宽的流式处理存储的大数据集。在一个成千个server的大集群中,每个server不仅要管理存储的这些数据,而且可以执行应用程序任务。通过分布式存储和在各个server间交叉运算,集群和存储可以按需动态经济增长。以下的设计原则...
分类:
其他好文 时间:
2014-10-17 06:42:33
阅读次数:
235
GridGain最近在2014年的Spark峰会上发布了Hadoop内存片内加速技术,可以为Hadoop应用带来内存片内计算的相关收益。
该技术包括两个单元:和Hadoop HDFS兼容的内存片内文件系统,以及为内存片内处理而优化的MapReduce实现。这两个单元对基于磁盘的HDFS和传统的MapReduce进行了扩展,为大数据处理情况提供了更好的性能。...
分类:
其他好文 时间:
2014-10-16 17:15:42
阅读次数:
235
7,在SparkWorker1和SparkWorker2上完成和SparkMaster同样的Hadoop 2.2.0操作,建议使用SCP命令把SparkMaster上安装和配置的Hadoop的各项内容拷贝到SparkWorker1和SparkWorker2上;
8,启动并验证Hadoop分布式集群
第一步:格式化hdfs文件系统:
第二步:进入...
分类:
其他好文 时间:
2014-10-16 16:28:02
阅读次数:
269
HDFS概述
HDFS不适合低延迟,小文件多,采用流式访问,一个时间点只有一个写入。HDFS采用主从结构,一个NameNode,多个DataNode。Namenode是文件系统元数据的数据存储库,它保存了文件信息,以及两个映射关系(文件与数据块的映射,块与DataNode数据节点的映射关系)。文件名到数据块的映射关系由于只被NameNode独知,因此它不仅需要在NameNode内存存储,...
分类:
其他好文 时间:
2014-10-15 18:07:01
阅读次数:
727