1. 环境准备 说明:本次集群搭建使用系统版本Centos 7.5 ,软件版本 V3.1.1。 1.1 配置说明 本次集群搭建共三台机器,具体说明下: 主机名 IP 说明 hadoop01 10.0.0.10 DataNode、NodeManager、NameNode hadoop02 10.0.0 ...
分类:
其他好文 时间:
2020-07-19 16:31:06
阅读次数:
63
在企业开发中,Hadoop框架自带的InputFormat类型不能满足所有应用场景,需要自定义InputFormat来解决实际问题。 自定义InputFormat步骤如下: (1)自定义一个类继承FilelnputFormat。 (2)自定义一个类继承RecordReader,实现一次读取一个完整文 ...
分类:
其他好文 时间:
2020-07-19 16:25:43
阅读次数:
67
什么是MyCat*一个彻底开源的,面向企业应用开发的大数据库集群*支持事务、ACID、可以替代MySQL的加强版数据库*一个可以视为MySQL集群的企业级数据库,用来替代昂贵的Oracle集群*一个融合内存缓存技术、NoSQL技术、HDFS大数据的新型SQLServer*结合传统数据库和新型分布式数据仓库的新一代企业级数据库产品*一个新颖的数据库中间件产品为什么使用MyCat如今随着互联网的发展,
分类:
数据库 时间:
2020-07-19 11:27:26
阅读次数:
86
首先会写出集群的部署规划,然后根据规划编写对应的配置文件 主要包含四个配置文件,包含的,将配置文件改好,然后分发到各个配置文件然后启动集群的时候将会加载配置文件 一、集群的部署规划 hadoop102 hadoop103 hadoop104 HDFS NameNode DataNode DataNo ...
分类:
其他好文 时间:
2020-07-19 00:55:10
阅读次数:
85
在配置hadoop集群时,时间同步是必须要做的,否则会出现各种意想不到的问题。 hadoop102 为 ntp server,hadoop103以及hadoop104 为ntp client(即需要同步时间机器) 1.全部机器都要安装ntp以及ntpdate sudo apt-get install ...
分类:
系统相关 时间:
2020-07-18 16:09:18
阅读次数:
143
1、官网下载地址:https://github.com/alibaba/DataX DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxC ...
分类:
其他好文 时间:
2020-07-17 22:02:27
阅读次数:
140
1.完成环境准备 a.开启hadoop服务 b.开启Mysql服务进入HIVE命令行界面 c.开启zookeeper服务 d.开启hbase服务进入命令行界面 ...
分类:
其他好文 时间:
2020-07-17 11:26:18
阅读次数:
54
今天MR的数据源很可能出现了问题,正常每天对方服务器会推过来2.1TB数据,今天只有1.6TB。 过来是gz压缩包,FTP的方式推送,进来之后我这边的程序进行解析,并存入HDFS。 对端的工程师只能看到压缩包目录的大小,看不到压缩前文件总大小,商量了一下,觉得不好对比数据一致性,想排查数据量问题,没 ...
分类:
其他好文 时间:
2020-07-17 09:40:37
阅读次数:
123
1 InputFormat数据输入 1.1 切片与MapTask并行度决定机制 1.问题引出 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。 思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高 ...
分类:
其他好文 时间:
2020-07-17 09:35:30
阅读次数:
65
1.5 CombineTextInputFormat案例实操 1.需求 将输入的大量小文件合并成一个切片统一处理。 (1)输入数据 准备4个小文件 (2)期望 期望一个切片处理4个文件 2.实现过程 (1)不做任何处理,运行1.6节的WordCount案例程序,观察切片个数为4。 (2)在Wordc ...
分类:
其他好文 时间:
2020-07-17 09:33:01
阅读次数:
73