标签:
The Sahara project provides a simple means to provision a Hadoop cluster on top of OpenStack
即基于OpenStack提供简单的Hadoop集群创建和管理方式。
* Hadoop cluster的创建
* Hadoop cluster的扩展
* 提供业务应用能力(Elastic Data Processing)
l 支持业务应用的类型包括mapreduce,java,hive,pig,streaming
l 在已存在的hadoop集群上直接执行用户的应用(job)。
l 新建一个hadoop集群执行用户的应用(job),执行完成后自动销毁hadoop集群,释放资源。
* 模板化配置
* Nodegroup template 和cluster template
* Nodegroup template:
l vm的配置参数(flavor,floating ip, volume);
l process以及其配置参数,例如namenode,jobtracker和对应的hdfs,mapreduce参数
* Cluster template:
l node group参数,包括使用的node template及其个数
l hadoop cluster参数
* 以plugin的方式支持多种hadoop发行版及hadoop版本(vanilla,hdp,cloudera,mapR,spark)
* 支持vm的资源调度策略。(anti-affinity)
* 支持Transient Clusters
* 支持手动scale hadoop Clusters (支持datanode和tasktracker的scale)
* 支持direct和heat两种方式部署vm
* 支持Cinder
* 支持Neutron and Nova Network
* Security group management
* Multi region deployment
* Data-locality
* 使用方式
* 创建若干个Nodegroup template
* 创建cluster template
* 通过cluster template创建cluster
* Scale cluster
Swift是OpenStack开源云计算项目的子项目之一,被称为对象存储,提供了强大的扩展性、冗余和持久性。
* 极高的数据持久性(Durability)。
* 完全对称的系统架构:“对称”意味着Swift中各节点可以完全对等,能极大地降低系统维护成本。
* 无限的可扩展性:一是数据存储容量无限可扩展;二是Swift性能(如QPS、吞吐量等)可线性提升。
* 无单点故障:Swift的元数据存储是完全均匀随机分布的,并且与对象文件存储一样,元数据也会存储多份。整个Swift集群中,也没有一个角色是单点的,并且在架构和设计上保证无单点业务是有效的。
* 简单、可依赖。
* 在Swift中,元数据呈分布式,跨集群复制。而在HDFS使用了中央系统来维护文件元数据(Namenode,名称节点),这对HDFS来说无异于单一故障点,因而扩展到规模非常大的环境显得更困难。
* Swift在设计时考虑到了多租户架构,而HDFS没有多租户架构这个概念。
* 在Swift中,文件可以写入多次;在并发操作环境下,以最近一次操作为准。而在HDFS中,文件写入一次,而且每次只能有一个文件写入。
* Swift用Python来编写,而HDFS用Java来编写。
* Swift被设计成了一种比较通用的存储解决方案,能够可靠地存储数量非常多的大小不一的文件;而HDFS被设计成可以存储数量中等的大文件(HDFS针对更庞大的文件作了优化),以支持数据处理。
* Hadoop目前已经支持Swift作为自身的分布式文件系统
* 使用url为swift://acontainer.aservice/path/to/files格式访问swift
* 代替hdfs,实现hadoop集群中计算资源和存储资源的分离,对于需要长期保留数据,而仅仅在需要时进行计算的场景非常有用。
* ? 提升Hadoop部署速度,简单方便
* ? hadoop参数的模板化定义,统一配置管理
* ? 提升Hadoop环境资源利用率
* ? 安全隔离让Hadoop落地更安全
* ? 实现Hadoop云端多租户
* ? 提供大数据的业务处理能力,简化业务人员的工作。
标签:
原文地址:http://my.oschina.net/cnsuning/blog/497223