码迷,mamicode.com
首页 >  
搜索关键字:hadoop分布式    ( 360个结果
三、HDFS——Hadoop分布式文件系统
一、hdfs的设计目标 1.1、硬件错误是常态而不是异常。Hadoop的设计理念之一就是它可以运行在廉价的普通PC机上,因而硬件故障是常态。在硬件故障时,可通过容错机制保证数据的正确性、完整性,从而保证系统的正常运行。 1.2、大文件存储。hdfs存储的文件大小一般在GB~TB的级别。 1.3、流式 ...
分类:其他好文   时间:2016-08-23 01:13:13    阅读次数:189
hadoop
Hadoop理论一.简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,以Hadoop分布式文件系统(HDFS,HadoopDistributedFilesystem)和MapReduce(GoogleMapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。模仿了goole的大数据开源,..
分类:其他好文   时间:2016-08-19 22:23:35    阅读次数:182
Spark入门 - 1 搭建Hadoop分布式集群
安装Ubuntu系统不论是通过虚拟机方式还是直接在物理机上安装Ubuntu系统,网上都有丰富的教程,此处不再赘述。为了方便起见,此处设置的机器名最好与书本的设置一致:Master、Slave1和Slave2。配置root用户登录这里有一步与普通教程不同。在安装好系统,重启之后,完成了相关配置。可以进行这一步,设置使用root用户登录,方便以后多个服务器相互操作。如下所示。为了简化权限问题,需要以ro...
分类:其他好文   时间:2016-07-21 13:06:34    阅读次数:257
深入理解HDFS:Hadoop分布式文件系统
文本详细介绍了HDFS中的许多概念,对于理解Hadoop分布式文件系统很有帮助。1. 介绍在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。而一旦在系统中,引入网络,就不可避免地引入了所有网络编程的复杂性,例如挑战之一是如果保证在节点不可用的时候数据不丢失。传统的网络文件系统(NFS)虽然也称为分布式文件系统,但是其存在一些限制。由于...
分类:其他好文   时间:2016-07-16 16:30:22    阅读次数:607
初步认识Hive
Hive是构建在hadoop之上的数据仓库。 1)数据计算是MapReduce 2)数据存储是HDFS 认识 Hive Hive 是基于 Hadoop 构建的一套数据仓库分析系统,它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据, 可以将结构化的数据文件映射为一张数 ...
分类:其他好文   时间:2016-07-11 12:03:53    阅读次数:221
HDFS
HDFS:(Hadoop Distributed File System),Hadoop分布式文件系统。 从名字上就看出了它的两点功能。基本功能,存文件,是一个文件系统;另外这个文件系统是分布式的; HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运 ...
分类:其他好文   时间:2016-06-29 18:52:27    阅读次数:174
一、Hadoop 2.x 分布式安装部署
一、Hadoop 2.x 分布式安装部署...
分类:其他好文   时间:2016-06-29 11:23:10    阅读次数:265
mark一下。hadoop分布式系统搭建
用于测试,我用4台虚拟机搭建成了hadoop结构 我用了两个台式机。一个xp系统,一个win7系统。每台电脑装两个虚拟机,要不然内存就满了。 1、安装虚拟机环境 Vmware,收费产品,占内存较大。 或 Oracle的VirtualBox,开源产品,占内存较小,但安装ubuntu过程中,重启会出错。 ...
分类:其他好文   时间:2016-06-28 12:14:17    阅读次数:215
Hadoop集群(第5期)_Hadoop安装配置
1、集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用 ...
分类:其他好文   时间:2016-06-27 10:19:17    阅读次数:179
hadoop学习记录(一)HDFS
hadoop的灵感源于谷歌,最初目的是解决传统数据库处理数据成本高和速度慢的问题。 hadoop两个核心项目是HDFS(hadoop分布式文件系统)和MapReduce。 HDFS用来实现数据的存储,它有别于传统关系型数据库的数据存储方式,不需要很强的数据完整性,以流式数据访问模式来存储超大文件。当 ...
分类:其他好文   时间:2016-06-05 08:41:08    阅读次数:246
360条   上一页 1 ... 16 17 18 19 20 ... 36 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!