标签:red 分析 文件属性 巴巴 做什么 键值 问题 数据 自动
一、什么是Hadoop?Google发表了两篇论文:描述如何以分布式方式存储海量数据的Google文件系统和描述如何处理大规模分布式数据的MapReduce:大型集群上的简化数据处理。受这两篇论文的启发,DougCutting实现了这两篇基于OSS(开源软件)的论文的原则,Hadoop诞生了。
Hadoop是一个用于分布式存储和处理大型数据的开源平台。Hadoop作为一个大规模的分布式数据处理平台,已经成为许多程序员的重要技能。
大数据时代已经到来,给我们的生活、工作和思维方式带来了变化。如何在大数据背后寻找价值既是一个机遇也是一个挑战。无论是财务数据,电子商务数据,社会数据,游戏数据…这些数据的规模、结构和增长速度给传统的数据存储和处理技术带来了巨大的挑战。幸运的是,Hadoop的诞生和它所建立的生态系统为大型数据的存储、处理和分析带来了曙光。
无论是像谷歌、雅虎这样的知名外国公司。微软、亚马逊、易趣、facebook、twitter、linkedin、cloudera、hortonworks等,或中国移动、阿里巴巴、华为、腾讯、百度、网易、京东商城等国内知名企业,均采用Hadoop及相关技术解决大规模数据问题,以满足公司需求。需求并创造商业价值。
例如:雅虎!垃圾邮件识别与过滤,用户特征建模系统;亚马逊(Amazon)协同过滤推荐系统;Facebook网络日志分析;Twitter、LinkedIn网络搜索系统;淘宝商品推荐系统,淘宝在自定义过滤功能中搜索…这些应用程序使用Hadoop和相关技术。
“Hadoop能做什么?”总结如下:
很多小伙伴,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习Qun:775908246,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。
Hadoop分布式文件系统(HDFS)是Hadoop的核心模块之一。它主要解决了Hadoop的大数据存储问题,其思想来源是Google的文件系统gfs。HDF的主要特点是:
保存多个拷贝,并提供容错机制,拷贝丢失或停机自动恢复。默认情况下保存三份副本,在廉价机器上运行。
适用于大数据处理。HDFS默认将文件分为块,64M是块。然后块键值对存储在HDFS上,键值对的映射存储在内存中。如果有太多的小文件,内存负担将很重。
HDF中的两个重要角色:
从社会学角度看,namenode是hdfs的管理者,起着管理、协调和操纵的作用。
从社会学的角度来看,datanode是hdfs的工作人员。它根据namenode的命令工作,并将工作进度和问题反馈给namenode。
客户机如何访问HDFS中的文件?具体流程如下:
在数据存储系统中,数据存储的可靠性是非常重要的。HDFS如何保证其可靠性?主要采用以下机制:
想学习大数据却搞不懂Hadoop?阿里云工程师带你三步解读Hadoop!
标签:red 分析 文件属性 巴巴 做什么 键值 问题 数据 自动
原文地址:http://blog.51cto.com/14189799/2347911