Hadoop的整体框架 Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成。 HBase是一个开源的,基于列存储模型的分布式数据库 HDFS是一个分布式文件系统。有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序 MapR ...
分类:
其他好文 时间:
2020-07-06 15:47:59
阅读次数:
67
一:MapReduce框架 (结合YARN框架) 补充:MapReduce框架知道我们写的map-reduce程序的运行逻辑。我们写的map-reduce中并没有管理层的任务运行分配逻辑,该逻辑被封装在MapReduce框架里面,被封装为MRAppMaster类,该类用于管理整个map-reduce ...
分类:
其他好文 时间:
2020-02-24 18:50:55
阅读次数:
71
承接上文:Hadoop基础 流量求和MapReduce程序及自定义数据类型 一:实验数据 对上一篇文章中的数据进行排序处理: 13480253104 180 200 380 13502468823 102 7335 7437 13560439658 5892 400 6292 13600217502 ...
分类:
编程语言 时间:
2020-02-23 20:01:26
阅读次数:
85
公司建立数仓,hive是必不可少的,hive是建立在hadoop基础上的数据库,前面已经搭建起了hadoop高可用,要学习hive,先从搭建开始,下面梳理一下hive搭建过程 1.下载hive安装包 ,下载地址:https://hive.apache.org/downloads.html 找到自己h ...
分类:
其他好文 时间:
2020-02-08 00:22:59
阅读次数:
102
hadoop是什么? 是一个分布式基础架构,主要解决海量数据存储以及数据分析计算问题。 hadoop三大发行版本? Apache、clourdera、Hortonworks hadoop优势? 高可靠、高扩展、高效、高容错 hadoop1.x和2.x的区别? HDFS(hadoop distribu ...
分类:
其他好文 时间:
2020-01-30 14:29:07
阅读次数:
79
本课程从Hadoop核心技术入手,以电商项目为依托,带领你从0基础开始上手,逐步掌握大数据核心技术(如:HDFS、YARN、MapReduce以及Hive),并使用这些技术进行实战,最终完成电商行为日志分析项目,让你轻松入门大数据! ...
分类:
Web程序 时间:
2020-01-10 01:08:26
阅读次数:
133
1 主要步骤 配置网络 修改主机名 关闭防火墙 关闭SELinux 安装jdk 增加hadoop用户 配置ssh信任 配置hadoop 集群部署规划 5台服务器, 一个主节点:nn1.hadoop, master (HA) 一个从节点:nn2.hadoop,slave 三个工作节点: s1.hado ...
分类:
系统相关 时间:
2019-12-09 01:34:10
阅读次数:
243
一、Wordcount练习 1.需求:通过hadoop分析文件中单词总数 1.要被分析的文件内容如图所示,每个单词之间以空格分开 2.实现的效果如图 2.代码实现 1.解决数据倾斜问题 考虑到在机器运行过程中 Reduce阶段每个相同的Key会由一个ReduceTask来处理,而java共有十六万个 ...
分类:
其他好文 时间:
2019-08-29 20:27:19
阅读次数:
119
hadoop dfs -ls file:/// (最后一个/表示本地文件系统的根目录) HDFS的弱点: 实施访问数据弱 大量小文件 多用户写入 配置hdfs块的大小 hsfs-site.xml 冗余性 <property> <name>dfs.replication</name> <value>3 ...
分类:
其他好文 时间:
2019-08-16 01:10:14
阅读次数:
116
1.hadoop前世今生: 1) 搜索引擎:网络爬虫+索引服务器(生成索引+检索) 2) Doung Cutting 3) Nutch a.分布式存储 b.分布式计算 4)GFS论文 doung cutting写了hdfs 2.hadoop概述 hadoop common:提供网络通信 hadoop ...
分类:
其他好文 时间:
2019-08-16 00:34:16
阅读次数:
122