码迷,mamicode.com
首页 > 其他好文 > 详细

Sahara的落地实践

时间:2015-08-26 14:10:41      阅读:145      评论:0      收藏:0      [点我收藏+]

标签:

何为Sahara

The Sahara project provides a simple means to provision a Hadoop cluster on top of OpenStack

即基于OpenStack提供简单的Hadoop集群创建和管理方式。


Sahara提供的功能

*      Hadoop cluster的创建

*      Hadoop cluster的扩展

*      提供业务应用能力(Elastic Data Processing

l  支持业务应用的类型包括mapreducejavahivepigstreaming

l  在已存在的hadoop集群上直接执行用户的应用(job)

l  新建一个hadoop集群执行用户的应用(job),执行完成后自动销毁hadoop集群,释放资源。

Cluster模式

*      模板化配置

*      Nodegroup template cluster template

*      Nodegroup template

l  vm的配置参数(flavor,floating ip, volume)

l  process以及其配置参数,例如namenodejobtracker和对应的hdfsmapreduce参数

*      Cluster template

l  node group参数,包括使用的node template及其个数

l  hadoop cluster参数

*      plugin的方式支持多种hadoop发行版及hadoop版本vanillahdpclouderamapRspark

*      支持vm的资源调度策略。(anti-affinity

*      支持Transient Clusters

*      支持手动scale hadoop Clusters (支持datanodetasktrackerscale

*      支持directheat两种方式部署vm

*      支持Cinder

*      支持Neutron and Nova Network

*      Security group management

*      Multi region deployment

*      Data-locality

*      使用方式

*      创建若干个Nodegroup template

*      创建cluster template

*      通过cluster template创建cluster

*      Scale cluster

SwiftHadoop的集成

SwiftOpenStack开源云计算项目的子项目之一,被称为对象存储,提供了强大的扩展性、冗余和持久性。

*      极高的数据持久性(Durability)。

*      完全对称的系统架构:“对称”意味着Swift中各节点可以完全对等,能极大地降低系统维护成本。

*      无限的可扩展性:一是数据存储容量无限可扩展;二是Swift性能(如QPS、吞吐量等)可线性提升。

*      无单点故障:Swift的元数据存储是完全均匀随机分布的,并且与对象文件存储一样,元数据也会存储多份。整个Swift集群中,也没有一个角色是单点的,并且在架构和设计上保证无单点业务是有效的。

*      简单、可依赖。

SwiftHDFS的技术差异

*      Swift中,元数据呈分布式,跨集群复制。而在HDFS使用了中央系统来维护文件元数据(Namenode,名称节点),这对HDFS来说无异于单一故障点,因而扩展到规模非常大的环境显得更困难。

*      Swift在设计时考虑到了多租户架构,而HDFS没有多租户架构这个概念。

*      Swift中,文件可以写入多次;在并发操作环境下,以最近一次操作为准。而在HDFS中,文件写入一次,而且每次只能有一个文件写入。

*      SwiftPython来编写,而HDFSJava来编写。

*      Swift被设计成了一种比较通用的存储解决方案,能够可靠地存储数量非常多的大小不一的文件;而HDFS被设计成可以存储数量中等的大文件(HDFS针对更庞大的文件作了优化),以支持数据处理。

*      Hadoop目前已经支持Swift作为自身的分布式文件系统

*      使用urlswift://acontainer.aservice/path/to/files格式访问swift

*      代替hdfs,实现hadoop集群中计算资源和存储资源的分离,对于需要长期保留数据,而仅仅在需要时进行计算的场景非常有用。

Sahara的优势

*      ? 提升Hadoop部署速度,简单方便

*      ?  hadoop参数的模板化定义,统一配置管理

*      ? 提升Hadoop环境资源利用率

*      ? 安全隔离让Hadoop落地更安全

*      ? 实现Hadoop云端多租户

*      ? 提供大数据的业务处理能力,简化业务人员的工作。


Sahara的落地实践

标签:

原文地址:http://my.oschina.net/cnsuning/blog/497223

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!