第一部分:core-site.xml?core-site.xml为Hadoop的核心属性文件,参数为Hadoop的核心功能,独立于HDFS与MapReduce。参数列表?fs.default.name?默认值 file:///?说明:设置Hadoop namenode的hostname及port,预...
分类:
其他好文 时间:
2014-08-23 15:13:50
阅读次数:
217
今天有个etl开发在droppartition的时候遇到了问题,因为是使用了自己的账号,而hdfs中对应partition的文件属主是hdfs的,在删除时会因为权限问题报错,切换用户为hdfs,做droppartition的错误,还是报错,看来没这么简单。查看表的hdfs属性,目录的属主不是hdfs且目录对hdfs没..
分类:
其他好文 时间:
2014-08-23 02:29:00
阅读次数:
231
行存储如图2所示,基于Hadoop系统行存储结构的优点在于快速数据加载和动态负载的高适应能力,这是因为行存储保证了相同记录的所有域都在同一个集群节点,即同一个HDFS块。不过,行存储的缺点也是显而易见的,例如它不能支持快速查询处理,因为当查询仅仅针对多列表中的少数几列时,它不能跳过不必要的列读取;此...
分类:
其他好文 时间:
2014-08-22 12:45:56
阅读次数:
285
引言 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高 度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐....
分类:
其他好文 时间:
2014-08-22 12:29:26
阅读次数:
260
HDFS Rolling Upgrade
Introduction
HDFS 滚动升级允许单独升级每一个HDFS进程。例如,DataNode可以独立于NameNode升级。一个NameNode可以独立于其他的NameNode升级。NameNode可以独立于DataNode和JournalNode升级。
Upgrade
在Hadoop V2中,HDFS支持NameNode服务的HA和前后兼容...
分类:
其他好文 时间:
2014-08-22 10:51:26
阅读次数:
172
Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑,就是些表的定义等,也就是表的元数据。使用SQL实现Hive是因为SQL大家都熟悉,转换成本低,类似作用的Pig就...
分类:
其他好文 时间:
2014-08-21 19:27:44
阅读次数:
148
Centralized Cache Management inHDFS
Overview
HDFS中的集中式缓存管理是一个显式的管理缓存的机制,它允许用户指定被HDFS缓存的路径。NameNode将与磁盘上有所需的Block的DataNode通信,命令其在堆外缓存里缓存Block。
HDFS中的集中式缓存管理有许多重要的优势。
1. 明确地防止频繁使用的数据被赶出内存。当工作集的...
分类:
其他好文 时间:
2014-08-21 15:07:24
阅读次数:
346
Hadoop HDFS文件常用操作及注意事项1.Copy a file from the local file system to HDFSThe srcFile variable needs to contain the full name (path + file name) of the fi...
分类:
其他好文 时间:
2014-08-21 12:50:04
阅读次数:
224
1.Copy a file from the local file system to HDFSThe srcFile variable needs to contain the full name (path + file name) of the file in the local file s...
分类:
其他好文 时间:
2014-08-21 11:24:34
阅读次数:
242
hive partitions hdfs 内部表 外部表 view...
分类:
其他好文 时间:
2014-08-20 19:39:52
阅读次数:
191