码迷,mamicode.com
首页 > 其他好文 > 详细

我的Hadoop学习(1)

时间:2019-05-21 19:28:10      阅读:123      评论:0      收藏:0      [点我收藏+]

标签:脚本   视频   base   访问   处理   映射   keep   bigdata   spin   

技术图片大数据(BigData):大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

Hadoop是根据谷歌的论文开发出来的分布式系统基础架构。(图片取自课工场视频的截图)

技术图片

技术图片

BigTable是Google设计的分布式数据存储系统,用来处理海量的数据的一种非关系型的数据库。(数据库)

GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。(存储系统)

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"(计算)

 

大数据带来的革命性变革
1)成本降低,能用PC机,就不会大型机或者高端存储设备。
2)软件容错、硬件故障视为常态,通过软件来保证高可靠。
3)简化分布式并行计算,无需控制节点同步和数据的交换。

 

Hadoop是什么:

技术图片

 

Hadoop框架的三大部分:

 技术图片

Hadoop的生态圈:

技术图片

 

 Hive:提供了sql查询功能

R语言:一种统计性语言

Mahout:机器学习库(已停止更新) 现在大家都使用Spark。

pig:用于写脚本统计数据。

Oozie:工作流(通常在多个场景中相互配合使用)

zookeeper:分布式的协调性服务。

Flume:用于日志文件的收集。

Sqoop:描述数据的交换,关系型数据库和大数据系统进行交换。

 Hbase:建立在HFDS上的面向列的数据库,用于快速读写大量数据,由zookeeper进行管理。

Hadoop的版本选择:

 

技术图片

 

 技术图片

对于Apache的顶级项目,网站有一定的规则
hadoop: hadoop.apache.org
hive: hive.apache.org
spark: spark.apache.org
hbase
zookeeper


CDH下载地址:http://archive.cloudera.com/cdh5/cdh/5/
cdh5.7.0

CM: 通过web就能够快速的搭建集群

 ================================================================================================================================

写在后面的话:

  这篇博客是我第一篇关于学习技术的博客,记录的是我看课工场视频学习的记录,截图取自视频,一些定义取自百度,可能写的不好,并且也没什么自己的理解。我个人写博客的原因是朋友的建议,因为

在培训班培训了6个多月只会写SSM框架,现在找工作很难,面试官的要求以我现在的水平根本达不到,现在都要求会spingboot和springcloud,会处理抢购网站的高并发请求,

我觉得我的培训经历很失败,朋友建议我自己照着API文档撸一遍代码,并且写技术博客来记录自己的学习,我自己希望能通过自己的学习达到用人单位的要求,找到一份合适的工作,

在博客里面如果有大佬觉得写的有问题的话请指出来,我来修改;如果有像我一样想要转行的小白,希望我们能共勉,一起努力学习,早日找到满意的工作。最后希望看到这篇博客的读者如果

发现有错误的地方能指出来,我在此表示感谢。(培训班不要报某鸟,我觉得我进天坑了~。~)

我的Hadoop学习(1)

标签:脚本   视频   base   访问   处理   映射   keep   bigdata   spin   

原文地址:https://www.cnblogs.com/chuxuedejuzi/p/10901636.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!