码迷,mamicode.com
首页 > 其他好文 > 详细

初识Hadoop

时间:2019-12-16 19:22:48      阅读:100      评论:0      收藏:0      [点我收藏+]

标签:业务   优势   副本   yar   包含   分布式文件系   google   href   机器   

一、Hadoop概述

1、Hadoop名字是由Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名,Hadoop是Apache开源的分布式存储+分布式计算平台。Hadoop能搭建大型数据仓库、PB级数据的存储、处理、分析、统计等业务,如搜索引擎、日志分析、商业智能、数据挖掘

2、狭义Hadoop:是一个适合大数据分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)的平台

3、广义Hadoop:指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,hadoop是其中最重要最基础的一个部分;生态系统中每一个子系统只解决某一个特定的问题域(甚至可能很窄),不搞统一型的全能系统,而是小而精的多个小系统

二、Hadoop核心组件

1、Hadoop核心组件之分布式文件系统HDFS

源自于Google的GFS论文,论文发表于2003年10月

HDFS是GFS的克隆版

HDFS特点:扩展性&容错性&海量数据存储

将文件切分成指定大小的数据块并以多副本的存储在多个机器上

数据切分、多副本、容错等操作对用户是透明的

技术图片

2、Hadoop核心组件之资源调度系统YARN(Yet Another Resource Negotiator)

负责整个集群资源的管理和调度

特点:扩展性&容错性&多框架资源统一调度

技术图片

3、Hadoop核心组件之分布式计算框架MapReduce

源自于Google的MapReduce论文,论文发表于2004年12月

MapReduce是Google MapReduce的克隆版

特点:扩展性&容错性&海量数据离线处理

技术图片

三、Hadoop优势

1、Hadoop优势之高可靠性

数据存储:数据块多副本

数据计算:重新调度作业计算

2、Hadoop优势之高扩展性

存储/计算资源不够时,可以横向的线性扩展机器

一个集群中可以包含数以千计的节点

3、Hadoop优势之其他

存储在廉价机器上,降低成本

成熟的生态圈

四、Hadoop发展史

参考:https://www.infoq.cn/article/hadoop-ten-years-interpretation-and-development-forecast

五、Hadoop生态系统

Hadoop生态系统的特点

1、开源、社区活跃

2、囊括了大数据处理的方方面面

3、成熟的生态圈

技术图片

六、Hadoop发行版的选择

1、Apache Hadoop

2、CDH:Cloudera Distributed Hadoop

3、HDP:Hortonworks Data Platform

CDH下载地址,拷贝以下地址到浏览器访问:archive.cloudera.com/cdh5/cdh/5/

初识Hadoop

标签:业务   优势   副本   yar   包含   分布式文件系   google   href   机器   

原文地址:https://www.cnblogs.com/yanguobin/p/12050372.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!