任何一个复杂的软件系统,为了提高其适应性和扩展性,一般都会有一个配置模块或者配置系统,作完成其扩展、定制的手段和方式。1.1. Windows的配置文件(第一次知道这事啊):采用的是ini后缀的文本文件,可通过动态链接库提供方法进行处理。初始化文件或profile概要文件1.2. Java配置文件:...
分类:
其他好文 时间:
2014-07-16 23:31:06
阅读次数:
340
欢迎转载,转载请注明出处,徽沪一郎。楔子Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块...
分类:
其他好文 时间:
2014-07-07 14:17:47
阅读次数:
295
一、SecondaryNameNode用途 SNN是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间,SNN进程默认运行在 namenode 机器上,如果这台机器出错,宕机,对恢复HDFS文件系统是很大的灾难,因此最佳方式是将SNN进程配置在另外....
分类:
其他好文 时间:
2014-07-01 21:53:52
阅读次数:
334
1.1. 压缩减少存储空间,加快传输速率在hadoop中,压缩应用于文件存储、Map端到Reduce端的数据交换等情景。hadoop,主要考虑压缩速率和压缩文件的可分割性压缩算法:时间和空间的权衡 更快的压缩和解压缩效率通常压缩比较低。hadoop提供了对压缩算法的编码和解码器类编码和解码示例(采用...
分类:
其他好文 时间:
2014-07-01 12:13:27
阅读次数:
222
1. hadoop远程过程调用RPC:XML-RPC,JSON-RPC,CORBA,RMI(Remote Method Invocation),Haoop IPC(进程间通信)RPC原理:允许本地程序(客户端)调用其他机器(服务器)上的过程,客户端使用参数将信息传送给调用方,通过返回值得到消息。RP...
分类:
其他好文 时间:
2014-07-01 12:01:22
阅读次数:
316
HDFS文件系统讲解,主要包括:1、namenode/datanode;2、数据存储副本;3、元数据持久化;4、数据模型;5、故障容错
分类:
其他好文 时间:
2014-06-30 22:01:26
阅读次数:
231
这篇文章是看了HBase权威指南之后,根据上面的讲解搬下来的例子,这篇文章将讲解两个例子,和HBase权威指南稍微有些不一样。
1、读取存储在hdfs上的txt文本数据,简单地以json字符串的形式写入到HBase表中。
2、将第一步存储的HBase表中的json字符串读取出来,解析存储到新的HBase表中,可以进行查询。
本文详细给出了源码以及如何运行,旨在加深HBase与mapreduc...
分类:
其他好文 时间:
2014-06-29 23:21:21
阅读次数:
340
Cloudera Impala 官方教程 《Impala Tutorial》,讲解了Impala一些基本操作,但操作步骤前后缺少连贯性,本文节选《Impala Tutorial》中的部分示例,从零开始讲解了一个完整示例:创建表、加载数据、查询数据。提供了一个入门级教程,通过本文的操作,向Impala说“Hello World”。...
分类:
其他好文 时间:
2014-06-29 23:07:03
阅读次数:
330
一. 介绍 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的.....
分类:
其他好文 时间:
2014-06-29 19:20:17
阅读次数:
252
core-site.xml
name
value
Description
fs.default.name
hdfs://hadoopmaster:9000
定义HadoopMaster的URI和端口
fs.checkpoint.dir
/opt/data/hadoop1/hdfs/namesecondar...
分类:
其他好文 时间:
2014-06-28 08:42:16
阅读次数:
285