一、hdfs的设计目标 1.1、硬件错误是常态而不是异常。Hadoop的设计理念之一就是它可以运行在廉价的普通PC机上,因而硬件故障是常态。在硬件故障时,可通过容错机制保证数据的正确性、完整性,从而保证系统的正常运行。 1.2、大文件存储。hdfs存储的文件大小一般在GB~TB的级别。 1.3、流式 ...
分类:
其他好文 时间:
2016-08-23 01:13:13
阅读次数:
189
Hadoop理论一.简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,以Hadoop分布式文件系统(HDFS,HadoopDistributedFilesystem)和MapReduce(GoogleMapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。模仿了goole的大数据开源,..
分类:
其他好文 时间:
2016-08-19 22:23:35
阅读次数:
182
安装Ubuntu系统不论是通过虚拟机方式还是直接在物理机上安装Ubuntu系统,网上都有丰富的教程,此处不再赘述。为了方便起见,此处设置的机器名最好与书本的设置一致:Master、Slave1和Slave2。配置root用户登录这里有一步与普通教程不同。在安装好系统,重启之后,完成了相关配置。可以进行这一步,设置使用root用户登录,方便以后多个服务器相互操作。如下所示。为了简化权限问题,需要以ro...
分类:
其他好文 时间:
2016-07-21 13:06:34
阅读次数:
257
文本详细介绍了HDFS中的许多概念,对于理解Hadoop分布式文件系统很有帮助。1. 介绍在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。而一旦在系统中,引入网络,就不可避免地引入了所有网络编程的复杂性,例如挑战之一是如果保证在节点不可用的时候数据不丢失。传统的网络文件系统(NFS)虽然也称为分布式文件系统,但是其存在一些限制。由于...
分类:
其他好文 时间:
2016-07-16 16:30:22
阅读次数:
607
Hive是构建在hadoop之上的数据仓库。 1)数据计算是MapReduce 2)数据存储是HDFS 认识 Hive Hive 是基于 Hadoop 构建的一套数据仓库分析系统,它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据, 可以将结构化的数据文件映射为一张数 ...
分类:
其他好文 时间:
2016-07-11 12:03:53
阅读次数:
221
HDFS:(Hadoop Distributed File System),Hadoop分布式文件系统。 从名字上就看出了它的两点功能。基本功能,存文件,是一个文件系统;另外这个文件系统是分布式的; HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运 ...
分类:
其他好文 时间:
2016-06-29 18:52:27
阅读次数:
174
用于测试,我用4台虚拟机搭建成了hadoop结构 我用了两个台式机。一个xp系统,一个win7系统。每台电脑装两个虚拟机,要不然内存就满了。 1、安装虚拟机环境 Vmware,收费产品,占内存较大。 或 Oracle的VirtualBox,开源产品,占内存较小,但安装ubuntu过程中,重启会出错。 ...
分类:
其他好文 时间:
2016-06-28 12:14:17
阅读次数:
215
1、集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用 ...
分类:
其他好文 时间:
2016-06-27 10:19:17
阅读次数:
179
hadoop的灵感源于谷歌,最初目的是解决传统数据库处理数据成本高和速度慢的问题。 hadoop两个核心项目是HDFS(hadoop分布式文件系统)和MapReduce。 HDFS用来实现数据的存储,它有别于传统关系型数据库的数据存储方式,不需要很强的数据完整性,以流式数据访问模式来存储超大文件。当 ...
分类:
其他好文 时间:
2016-06-05 08:41:08
阅读次数:
246