Hadoop简介

时间：2020-04-03 12:26:15 阅读：105 评论：0 收藏：0 [点我收藏+]

标签：处理 sof 设计 mon 生态兼容 ambari 海量升级

1.Hadoop的发展历史起源介绍

　　a.Hadoop最早起源于Nutch、Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询的功能，但随着抓取网页数量的增加，遇到了严重的可扩展的问题——如何解决数10亿网页的存储和索引问题。　　

　　b.2003、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。

　　　　——分布式文件系统（GFS），可用于处理海量网页的存储

　　　　——分布式计算框架（MapReduce），可用于处理海量数据网页的索引计算

　　c.Nutch的开发人员完成了相应的开源实现HDFS和MapReduce，并从Nutch中剥离称为独立项目Hadoop，到了2008年1月，Hadoop成为了Apache顶级项目（同年，cloudera公司成立），迎来了他的快速发展。

　　d.Hadoop作者Doug Cutting。

　　e.Apache Lucene是一个文件搜索系统库。

　　f.Apache Nutch作为前者的一部分，主要包括web爬虫、全文检索；2003年‘谷歌分布式文件系统GPS’论文，2004年开源版本HDFS。

　　g.2004年‘谷歌MapReduce’论文，2005年Nutch开源版MapReduce。

　　狭义上来说，hadoop就是单独指代hadoop这个软件

　　广义上来说，hadoop指代大数据的一个生态圈，包括很多其他的软件

　　技术图片

2.hadoop的发展版本简介

　　0.x系列：hadoop当中最早的一个开源版本，在此基础上演变了了1.x以及2.x。

　　1.x系列：hadoop第二代开源版本，主要修复0.x版本的bug。（计算和资源分配胶合在一起）

　　2.x系列：架构产生了重大变化，引入了yarn平台等许多新特性，也是现在生产环境中使用做多的。

　　3.x系列：在2.x的基础上，引入了一些hdfs的新特性，且已经发行了稳定版本，也是未来的趋势。

3.hadoop生产环境版本选择

　　Hadoop三大发行版本：Apache、Cloudera、Hortonworks。

　　Apache：原生版本，入门学习比较好，有bug、兼容性问题、有需要升级的地方。

　　其他厂商解决了原生apache的部分问题：

　　Cloudera：大型互联网企业使用比较多。

　　Hortonworks：文档比较好。

　　Apache Hadoop：

　　　　官网地址：http://hadoop.apache.org/releases.html

　　　　下载地址：https://archive.apache.org/dist/hadoop/common/

　　Cloudera Hadoop：

　　　　官网地址：https://www.cloudera.com/downloads/cdh/5-10-0.html

　　　　下载地址：http://archive.cloudera.com/cdh5/cdh/5/

　　　　a.2008年成立的Cloudera是最早将Hadoop商用的公司，为合作伙伴提供Hadoop的商用解决方案，主要包括支持、咨询服务、培训。

　　　　b.2009年Hadoop的创始人Doug Cutting也加盟了Cloudera公司。Cloudera产品主要为Cdh，Cloudera Manager，ClouderaSupport。

　　　　c.cdh是Cloudera的Hadoop发行版，完全开源，比Apache Hadoop在兼容性，安全性，稳定性上有所增强。

　　　　e.Cloudera Manager是集群的软件分发管理及监控平台，可以在几小时内部署好一个Hadoop集群，并未集群的节点及服务进行实时监控。

　　　　f.Cloudera Support是对Hadoop的技术支持。

　　　　g.Cloudera的标价为每个节点每年4000美元。Cloudera开发并贡献了可实时处理大数据的lmpala项目。

　　Hortonworks Hadoop：

　　　　官网地址：https://hortonworks.com/products/data-center/hdp/

　　　　下载地址：https://hortonworks.com/downloads/#data-platform

　　　　现Cloudera与Hortonworks已合并。

　　　　a.2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。

　　　　b.公司成立之初就吸纳了大约25~30名专门研究Hadoop的雅虎工程师，上述工程师均在2005年开始协助雅虎开发Hadoop，贡献了80%的代码。

　　　　c.雅虎工程副总裁、雅虎Hadoop开发团队负责人Eric Baldeschwieler出任Hortonworks的首席执行官。

　　　　d.Hortonworks的主打产品是Hortonworks Data Platform（HDP），也同样是100%开源产品，HDP除常见的项目外还包括了Ambari，一款开源的安装和管理系统。

　　　　f.HCatalog一个元数据管理系统，HCatalog现已集成到Facebook开源的Hive中。Hortonworks的Stinger开创性极大的优化了Hive项目。Hortonworks为入门提供了一个非常好的，易于使用的沙盒。

　　　　g.Hortonworks开发了很多增强特性并提交至核心主干，这使得Apache Hadoop能够在包括Window Server和Windows Azure在内的Microsoft Windows平台上本地运行。定价以集群为基础，每个节点每年为12500美元。

4.Hadoop的架构模块介绍

　　技术图片

　　HDFS模块：数据存储

　　　　namenode：主节点，主要负责集群的管理以及元数据信息管理。（一个）

　　　　datanode：从节点，主要负责存储用户数据。（多个）

　　　　seconndaryNameNode：辅助namenode管理元数据信息，以及元数据信息的冷备份。

　　Yarn模块：资源分配

　　　　ResourceManager：主节点，主要负责资源（cpu、内存、磁盘等）分配。（一个）

　　　　NodeManager：从节点，主要负责执行任务。（多个）

　　Mapreduce模块：数据处理

5.Hadoop的运行模式

　　Hadoop运行模式包括：本地模式、伪分布式模式、完全分布式运行模式。

　　1.本地运行模式

　　　　无须任何守护进程，所有程序都运行在同一个JVM上执行。在独立模式下调试MR程序非常高效。所以一般该模式主要是在学习或者开发阶段调试使用。

　　2.伪分布式运行模式

　　　　Hadoop守护进程运行在本地机器上，模拟一个小规模集群，换句话说，可以配置一台机器的Hadoop集群伪分布式是完全分布式的一个特例（所有的节点都在一台机器上运行）。

　　3.完全分布式运行模式（开发重点）

　　　　Hadoop守护进程运行在一个集群上，需要多台机器实现完全分布式服务安装。

Hadoop简介

标签：处理 sof 设计 mon 生态兼容 ambari 海量升级

原文地址：https://www.cnblogs.com/dan2/p/12625426.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行