一、Hadoop简介1.1、Hadoop主要进行分布式存储和分布式计算 1.1-1、HDFS:分布式文件系统 1.1-2、MapReduce:并行计算框架1.2、Hadoop用来做什么? 搭建大型的数据仓库 搜索引擎、日志分析、数据挖掘1.3、优势: 高扩展、低成本、成熟的生态圈二、Had...
分类:
其他好文 时间:
2015-12-08 00:35:26
阅读次数:
221
一.HDFS的Shell命令我们都知道HDFS 是存取数据的分布式文件系统,那么对HDFS 的操作,就是文件系统的基本操作,比如文件的创建、修改、删除、修改权限等,文件夹的创建、删除、重命名等。对HDFS 的操作命令类似于lLinux 的shell 对文件的操作,如ls、mkdir、rm 等。我们在...
分类:
系统相关 时间:
2015-12-04 01:05:21
阅读次数:
1306
一.HDFS介绍1.1 背景随着数据量越来越大,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。学术一点的定义就是:分布式文件系统是一种允许文件通过网络在多台主机上分享的文件的系统,可让...
分类:
其他好文 时间:
2015-12-04 00:53:33
阅读次数:
210
本文来源:通通学--知识学习与分享平台转载链接:http://www.tongtongxue.com/archives/220.htmlHadoop的核心HDFS:HadoopDistributedFileSystem分布式文件系统MapReduce:并行计算框架Yarn:集群资源管理和调度框架Hadoop是什么?适合大数据的分布式存储、计算、资源管理平台作..
分类:
其他好文 时间:
2015-11-29 19:43:15
阅读次数:
189
概述Docs:http://docs.ceph.com/docsCeph是一个分布式文件系统,在维持POSIX兼容性的同时加入了复制和容错功能。Ceph最大的特点是分布式的元数据服务器,通过CRUSH(ControlledReplicationUnderScalableHashing)这种拟算法来分配文件的location。Ceph的核心是RADOS(ReliableA..
分类:
其他好文 时间:
2015-11-26 01:30:54
阅读次数:
254
Hadoop项目是什么?Hadoop是一个适合大数据的分布式存储与计算平台。作者:Doug Cutting;Lucene,Nutch。受Google三篇论文的启发Hadoop核心项目HDFS: Hadoop Distributed File System 分布式文件系统MapReduce:并行计算框...
分类:
其他好文 时间:
2015-11-24 07:34:36
阅读次数:
214
当企业有大量的新机需要安装系统,如果每台都接上系统光盘并人工选择配置安装,无疑工作量巨大。而PXE+kickstart的安装方式能够实现自动化批量部署,特别适用于这种场景。一、批量部署方式①物理机:PXE负载均衡②虚拟机:映像文件模板分布式文件系统无论是针对物理机还是虚拟..
分类:
系统相关 时间:
2015-11-23 06:24:49
阅读次数:
370
本文转载:通通学--知识学习与分享平台Hadoop的核心HDFS:HadoopDistributed File System 分布式文件系统MapReduce:并行计算框架Yarn:集群资源管理和调度框架Hadoop是什么?适合大数据的分布式存储、计算、资源管理平台作者:Doug Cutting受G...
分类:
其他好文 时间:
2015-11-22 23:13:06
阅读次数:
197
Google文件系统GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。1、设计概览(1)设计想定GFS与过去的分布式文件系统有很多相同的目标,但GFS的设计受到了当前及预期的应用...
分类:
其他好文 时间:
2015-11-21 19:39:39
阅读次数:
197
引言前提和设计目标硬件错误流式数据访问大规模数据集简单的一致性模型“移动计算比移动数据更划算”异构软硬件平台间的可移植性Namenode 和 Datanode文件系统的名字空间 (namespace)数据复制副本存放: 最最开始的一步副本选择安全模式文件系统元数据的持久化通讯协议健壮性磁盘数据错误,...
分类:
其他好文 时间:
2015-11-18 14:28:45
阅读次数:
216