官方文档:https://hadoop.apache.org/docs/stable/,目前官方已经是3.x,但yarn机制没有太大变化 一、简介 在Hadoop1.0中,没有yarn,所有的任务调度和资源管理都是MapReduce自己来做,所以在Hadoop1.0中,最核心的节点是JobTrack ...
分类:
其他好文 时间:
2020-02-07 16:24:04
阅读次数:
62
Zookeeper是Google的Chubby一个开源的实现,是Hadoop的分布式协调服务。它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。 架构图如下: Zookeeper能做些什么? Hadoop2.0使用Zookeeper的事件处理确保整个集群只有一个活跃 ...
分类:
其他好文 时间:
2020-02-05 13:54:23
阅读次数:
59
1、《CentOS6.5下安装Hadoop-2.7.3(图解教程)》 https://www.toutiao.com/i6627365258090512909/ 2、《CentOS6.5-Hadoop2.7.3安装hive-2.1.1》 https://www.toutiao.com/i662772 ...
分类:
其他好文 时间:
2020-02-02 14:10:28
阅读次数:
109
使用Sqoop将mysql数据传到hive 系统环境:hadoop2.65,mysql5.7.28,sqoop1.47,hive1.2.2,虚拟机centos7,物理机windows10 注意点:安装sqoop不要将目录设在hadoop下面,否则在运行下面命令时会发生找不到jar包的问题,我估计是系 ...
分类:
其他好文 时间:
2020-02-01 21:20:23
阅读次数:
297
本篇介绍在centos7中大家hadoop2.10完全分布式,首先准备4台机器:1台nn(namenode);3台dn(datanode) IP hostname 进程 192.168.30.141 s141 nn(namenode) 192.168.30.142 s142 dn(datanode) ...
分类:
其他好文 时间:
2020-01-29 23:34:39
阅读次数:
104
hive基础 大数据特性与应用 分布式架构概念 Hadoop2.x系统介绍 掌握hive基础建表,以及表格式 了解hive查询 了解正则表达式 1、hive的简介‘’ hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类sql的查询功能 hive的本质: ...
分类:
其他好文 时间:
2020-01-11 22:12:42
阅读次数:
106
查spark version:spark-sql --version spark的开源包: apache的dist下载spark-2.4.3-bin-hadoop2.8.tgz 1/ spark要访问s3需要cp /usr/lib/hadoop-current/share/hadoop/tools/ ...
分类:
其他好文 时间:
2020-01-11 11:50:20
阅读次数:
125
一、VM虚拟环境搭建(详细讲解)说明:在windos10上使用VmWareWorkstation创建3节点Hadoop虚拟环境创建虚拟机下一步设置虚拟机主机名和介质存放路径设置20G磁盘大小选择“自定义硬件”配置网络模式为NAT模式配置虚拟机启动镜像到这里,使用虚拟机克隆技术配置另外两台slave同理克隆slave2,步骤省略此时windos网络连接里面会出现两张虚拟网卡接下来就是给虚拟机配置IP
分类:
其他好文 时间:
2020-01-08 17:28:21
阅读次数:
120
一、主机规划 3台主机:1个master、2个slaver/worker ip地址使用docker默认的分配地址: master: 主机名: hadoop2、ip地址: 172.17.0.2 slaver1: 主机名: hadoop3、ip地址: 172.17.0.3 主机名: hadoop4、ip ...
分类:
其他好文 时间:
2020-01-08 14:18:46
阅读次数:
86
1.HDFS简单版集群搭建相关配置文件 1.core-site.xml文件 1 <property> 2 <name>fs.defaultFS</name> 3 <value>hdfs://hadoop2:9000</value> 4 </property> 5 6 <property> 7 <na ...
分类:
其他好文 时间:
2020-01-05 11:26:45
阅读次数:
76