HDFS简介HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。1.HDFS有以下几个主要特点:处理超大文件:存储的一个超大..
分类:
其他好文 时间:
2014-08-24 19:30:13
阅读次数:
275
原文链接:http://blog.csdn.net/sprintfwater/article/details/89962141.建立、关闭与HDFS连接:hdfsConnect()、hdfsConnectAsUser()、hdfsDisconnect()。hdfsConnect()实际上是直接调用h...
分类:
编程语言 时间:
2014-08-24 17:55:22
阅读次数:
349
今天碰到的一个 spark问题,困扰好久才解决首先我的spark集群部署使用的部署包是官方提供的spark-1.0.2-bin-hadoop2.tgz部署在hadoop集群上。在运行java jar包的时候使用命令java -jar chinahadoop-1.0-SNAPSHOT.jar chin...
分类:
编程语言 时间:
2014-08-24 08:04:42
阅读次数:
321
部署spark集群使用spark包spark-1.0.2-bin-hadoop2.tgz在spark-shell和java -jar访问hadoop hdfs上的文件写法是有区别的在spark-shell直接使用/user/ning/1.txt 之类的路径,不用加hdfs://host:port 的...
分类:
编程语言 时间:
2014-08-24 08:04:12
阅读次数:
261
环境:Centos6.4 64位Hadoop2.2.0Sun JDK1.7.0_45hive-0.12.0准备工作:yum -y install lzo-devel zlib-devel gcc autoconf automake libtool开始了哦!(1)安装LZOwget http://ww...
分类:
其他好文 时间:
2014-08-23 15:18:00
阅读次数:
1180
第一部分:core-site.xml?core-site.xml为Hadoop的核心属性文件,参数为Hadoop的核心功能,独立于HDFS与MapReduce。参数列表?fs.default.name?默认值 file:///?说明:设置Hadoop namenode的hostname及port,预...
分类:
其他好文 时间:
2014-08-23 15:13:50
阅读次数:
217
今天有个etl开发在droppartition的时候遇到了问题,因为是使用了自己的账号,而hdfs中对应partition的文件属主是hdfs的,在删除时会因为权限问题报错,切换用户为hdfs,做droppartition的错误,还是报错,看来没这么简单。查看表的hdfs属性,目录的属主不是hdfs且目录对hdfs没..
分类:
其他好文 时间:
2014-08-23 02:29:00
阅读次数:
231
行存储如图2所示,基于Hadoop系统行存储结构的优点在于快速数据加载和动态负载的高适应能力,这是因为行存储保证了相同记录的所有域都在同一个集群节点,即同一个HDFS块。不过,行存储的缺点也是显而易见的,例如它不能支持快速查询处理,因为当查询仅仅针对多列表中的少数几列时,它不能跳过不必要的列读取;此...
分类:
其他好文 时间:
2014-08-22 12:45:56
阅读次数:
285
引言 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高 度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐....
分类:
其他好文 时间:
2014-08-22 12:29:26
阅读次数:
260
HDFS Rolling Upgrade
Introduction
HDFS 滚动升级允许单独升级每一个HDFS进程。例如,DataNode可以独立于NameNode升级。一个NameNode可以独立于其他的NameNode升级。NameNode可以独立于DataNode和JournalNode升级。
Upgrade
在Hadoop V2中,HDFS支持NameNode服务的HA和前后兼容...
分类:
其他好文 时间:
2014-08-22 10:51:26
阅读次数:
172