导读:Apache Hive是一个构建于Hadoop(分布式系统基础架构)顶层的数据仓库,Apache HBase是运行于HDFS顶层的NoSQL(=Not Only SQL,泛指非关系型的数据库)数据库系统。区别于Hive,HBase具备随即读写功能,是一种面向列的数据库。对于刚接触大数据的用户来...
分类:
其他好文 时间:
2015-03-01 13:01:55
阅读次数:
223
开篇:在本笔记系列的第一篇中,我们介绍了如何搭建伪分布与分布模式的Hadoop集群。现在,我们来了解一下在一个Hadoop分布式集群中,如何动态(不关机且正在运行的情况下)地添加一个Hadoop节点与下架一个Hadoop节点。一、实验环境结构 本次试验,我们构建的集群是一个主节点,三个从节点的结构....
分类:
其他好文 时间:
2015-02-27 01:26:53
阅读次数:
306
部分目录:
1,初始Hadoop
2,关于MapReduce
3,Hadoop分布式文件系统
HDFS 文件系统。
4,Hadoop I/O
5,MapReduce应用开发
6,MapReduce的工作机制
7,MapReduce的类型与格式
8,MapReduce 的特性
9,构建 Hadoop 集群
10,管理 Hadoop
11,Pig简介
Pig Latin 描述...
分类:
其他好文 时间:
2015-02-13 20:01:07
阅读次数:
183
Apache Hadoop 项目有两个核心组件,被称为 Hadoop 分布式文件系统 (Hadoop Distributed File System, HDFS) 的文件存储,以及被称为 MapReduce 的编程框架。有一些支持项目充分利用了 HDFS 和 MapReduce。 HDFS: 如果您...
分类:
其他好文 时间:
2015-02-04 21:35:46
阅读次数:
144
如果说事务控制在数据库中是有时候用到,在普通的文件系统中是偶尔要处理。那么在分布式文件系统中,事务控制是每一个数据操作都要关注的内容。当然,有很多的现成的系统给我们提供了很多的资源。
分布式文件系统是一个快速发展的概念,目前还没有形成类似ORACLE在数据库中的地位,因此,关于这块,参考了一些网络上的内容,泛泛而谈。Hadoop分布式文件系统(HDFS)在JAVA环境中使用相对比较多,用自己的半...
分类:
其他好文 时间:
2015-02-04 18:46:14
阅读次数:
125
最近项目弄完了,有好多时间,准备把以前的知识复习一遍,以便日后更好的使用,先从maven搭建开始,然后再搭建以下SSH+mybatis的框架,弄完了在学学Hadoop分布式相关的东西。
安装前先配置好电脑的相关环境变量。
一、配置maven的环境
下载地址: http://maven.apache.org/download.cgi(window下载(B...
分类:
其他好文 时间:
2015-01-23 13:28:38
阅读次数:
205
1、Hadoop生态系统 2、HDFS(Hadoop分布式文件系统) 源自于Google的GFS论文,发表于2003年10月,HDFS是GFS克隆版。 是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,...
分类:
其他好文 时间:
2015-01-21 14:49:42
阅读次数:
10752
HDFS作为Hadoop的核心技术之一,HDFS(Hadoop Distributed File System, Hadoop分布式文件系统)是分布式计算中数据存储管理的基础。具有高容错高可靠性、高可扩展性、高可获得性、高吞吐率等特性。为超大数据集的应用提供了便利。一、设计的前提和目的HDFS是Go...
分类:
其他好文 时间:
2015-01-12 22:29:31
阅读次数:
264
引言 前提和设计目标 硬件错误 流式数据访问 大规模数据集 简单的一致性模型 “移动计算比移动数据更划算” 异构软硬件平台间的可移植性 Namenode 和 Datanode 文件系统的名字空间 (namespace) 数据复制 副本存放: 最最开始的一步 副本选择 安全模式 文件系统元数据的持久化...
分类:
其他好文 时间:
2015-01-08 11:12:54
阅读次数:
166