标签:处理 sof 设计 mon 生态 兼容 ambari 海量 升级
1.Hadoop的发展历史起源介绍
a.Hadoop最早起源于Nutch、Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询的功能,但随着抓取网页数量的增加,遇到了严重的可扩展的问题——如何解决数10亿网页的存储和索引问题。
b.2003、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。
——分布式文件系统(GFS),可用于处理海量网页的存储
——分布式计算框架(MapReduce),可用于处理海量数据网页的索引计算
c.Nutch的开发人员完成了相应的开源实现HDFS和MapReduce,并从Nutch中剥离称为独立项目Hadoop,到了2008年1月,Hadoop成为了Apache顶级项目(同年,cloudera公司成立),迎来了他的快速发展。
d.Hadoop作者Doug Cutting。
e.Apache Lucene是一个文件搜索系统库。
f.Apache Nutch作为前者的一部分,主要包括web爬虫、全文检索;2003年‘谷歌分布式文件系统GPS’论文,2004年开源版本HDFS。
g.2004年‘谷歌MapReduce’论文,2005年Nutch开源版MapReduce。
狭义上来说,hadoop就是单独指代hadoop这个软件
广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件
2.hadoop的发展版本简介
0.x系列:hadoop当中最早的一个开源版本,在此基础上演变了了1.x以及2.x。
1.x系列:hadoop第二代开源版本,主要修复0.x版本的bug。(计算和资源分配胶合在一起)
2.x系列:架构产生了重大变化,引入了yarn平台等许多新特性,也是现在生产环境中使用做多的。
3.x系列:在2.x的基础上,引入了一些hdfs的新特性,且已经发行了稳定版本,也是未来的趋势。
3.hadoop生产环境版本选择
Hadoop三大发行版本:Apache、Cloudera、Hortonworks。
Apache:原生版本,入门学习比较好,有bug、兼容性问题、有需要升级的地方。
其他厂商解决了原生apache的部分问题:
Cloudera:大型互联网企业使用比较多。
Hortonworks:文档比较好。
Apache Hadoop:
官网地址:http://hadoop.apache.org/releases.html
下载地址:https://archive.apache.org/dist/hadoop/common/
Cloudera Hadoop:
官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址:http://archive.cloudera.com/cdh5/cdh/5/
a.2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要包括支持、咨询服务、培训。
b.2009年Hadoop的创始人Doug Cutting也加盟了Cloudera公司。Cloudera产品主要为Cdh,Cloudera Manager,ClouderaSupport。
c.cdh是Cloudera的Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安全性,稳定性上有所增强。
e.Cloudera Manager是集群的软件分发管理及监控平台,可以在几小时内部署好一个Hadoop集群,并未集群的节点及服务进行实时监控。
f.Cloudera Support是对Hadoop的技术支持。
g.Cloudera的标价为每个节点每年4000美元。Cloudera开发并贡献了可实时处理大数据的lmpala项目。
Hortonworks Hadoop:
官网地址:https://hortonworks.com/products/data-center/hdp/
下载地址:https://hortonworks.com/downloads/#data-platform
现Cloudera与Hortonworks已合并。
a.2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。
b.公司成立之初就吸纳了大约25~30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,贡献了80%的代码。
c.雅虎工程副总裁、雅虎Hadoop开发团队负责人Eric Baldeschwieler出任Hortonworks的首席执行官。
d.Hortonworks的主打产品是Hortonworks Data Platform(HDP),也同样是100%开源产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。
f.HCatalog一个元数据管理系统,HCatalog现已集成到Facebook开源的Hive中。Hortonworks的Stinger开创性极大的优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。
g.Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Window Server和Windows Azure在内的Microsoft Windows平台上本地运行。定价以集群为基础,每个节点每年为12500美元。
4.Hadoop的架构模块介绍
HDFS模块:数据存储
namenode:主节点,主要负责集群的管理以及元数据信息管理。(一个)
datanode:从节点,主要负责存储用户数据。(多个)
seconndaryNameNode:辅助namenode管理元数据信息,以及元数据信息的冷备份。
Yarn模块:资源分配
ResourceManager:主节点,主要负责资源(cpu、内存、磁盘等)分配。(一个)
NodeManager:从节点,主要负责执行任务。(多个)
Mapreduce模块:数据处理
5.Hadoop的运行模式
Hadoop运行模式包括:本地模式、伪分布式模式、完全分布式运行模式。
1.本地运行模式
无须任何守护进程,所有程序都运行在同一个JVM上执行。在独立模式下调试MR程序非常高效。所以一般该模式主要是在学习或者开发阶段调试使用。
2.伪分布式运行模式
Hadoop守护进程运行在本地机器上,模拟一个小规模集群,换句话说,可以配置一台机器的Hadoop集群伪分布式是完全分布式的一个特例(所有的节点都在一台机器上运行)。
3.完全分布式运行模式(开发重点)
Hadoop守护进程运行在一个集群上,需要多台机器实现完全分布式服务安装。
标签:处理 sof 设计 mon 生态 兼容 ambari 海量 升级
原文地址:https://www.cnblogs.com/dan2/p/12625426.html