Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据..
分类:
其他好文 时间:
2015-04-11 06:44:28
阅读次数:
467
什么是HDFS? hadoop distributed file system(hadoop分布式文件系统) 是一种允许文件通过网络在多台主机上分享的文件系统, 可让多机器上的多用户分享文件和存储空间. 特点: 1.通透性.让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一...
分类:
其他好文 时间:
2015-04-09 06:08:31
阅读次数:
171
0. 关于大数据1. Hadoop:事实上的大数据标准3. Hadoop 体系结构HDFS: Hadoop 分布式文件系统HDFS 有着高容错性特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序。MapReduce: Hadoop 编程模型,用于大规模数据集(大于1TB)的并行计...
分类:
其他好文 时间:
2015-04-06 11:23:12
阅读次数:
165
Hadoop有一个抽象的文件系统概念,HDFS只是其中的一个实现。Java抽象类 org.apache.hadoop.fs.FileSystem展示了Hadoop的一个文件系统,而且有几个具体实现,如表 3-1所示。
文件系统
URI
方案
Java实
现(全部在
org.apache.hadoop)
描述
Local
...
分类:
其他好文 时间:
2015-04-03 11:20:26
阅读次数:
116
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的...
分类:
数据库 时间:
2015-03-29 16:25:54
阅读次数:
301
Hadoop是Apache软件基金会旗下的开源分布式存储计算平台,它以HDFS(Hadoop Distributed File System)和MapReduce为核心,为用户提供了系统底层细节透明的分布式基础架构。其中,HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上.....
分类:
其他好文 时间:
2015-03-21 11:14:44
阅读次数:
189
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS、MapReduce、Hbase、Hive是如...
分类:
其他好文 时间:
2015-03-17 21:50:22
阅读次数:
155
Hadoop的主核心有2部分:1,HDFS2, MapReduce首先:HDFSHDFS(Hadoop Distributed File System,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large...
分类:
其他好文 时间:
2015-03-14 09:30:46
阅读次数:
167
很早就听说hadoop,但项目中一直没怎么接触,今天终于下定决心,花了一天的时间,搭起了基本的开发环境,总结如下。
一.软件准备
jdk、hadoop软件包、eclipse软件包(linux版)
二.安装java
详见http://blog.csdn.net/tonytfjing/article/details/42167599
三.安装hadoop(单机伪分布式)
3...
分类:
其他好文 时间:
2015-03-04 22:49:30
阅读次数:
213
本文来源于《Hadoop技术内幕深入解析Hadoop common和HDFS架构设计与实现原理》一、Hadoop基本概念Hadoop是Apache基金会下的一个开源分布式计算平台,以Hadoop分布式文件系统(HDFS)和MapReduce分布式计算框架为核心,为用户提供了底层细节透明的分布式基础设...
分类:
其他好文 时间:
2015-03-03 21:58:21
阅读次数:
136