首先还是修改flink安装目录的conf目录下flink-conf.yaml文件,找到如下的三个配置,把原本的注释放开,然后配置自己的hdfs地址和zookeeper地址。 需要注意的是,我这里的hdfs是之前的ha集群,mycluster是我的hdfs的集群名,至于后边的内容会在hdfs中创建路径 ...
分类:
其他好文 时间:
2020-12-01 12:17:20
阅读次数:
7
>.ClouderaManager功能 1.1>.管理监控集群主机(主要监控硬件和软件的信息); 1.2>.同一管理配置(主要是针对服务,比如hdfs,hbase等等); 1.3>.管理维护Hadoop平台系统; 2>.ClouderaManager的一些常见名词 2.1>.主机-host 2.2> ...
分类:
其他好文 时间:
2020-12-01 11:54:36
阅读次数:
3
MapReduce既是一个编程模型,也是一个计算组件,处理的过程分为两个阶段,Map阶段:负责把任务分解为多个小任务,Reduce负责把多个小任务的处理结果进行汇总。其中Map阶段主要输入是一对Key-Value,经过map计算后输出一对Key-Value值;然后将相同Key合并,形成Key-Value集合;再将这个Key-Value集合转入Reduce阶段,经过计算输出最终Key-Value结果集。
分类:
其他好文 时间:
2020-11-26 14:53:23
阅读次数:
6
package com.atguigu.etl; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.NullWritable; impo ...
分类:
其他好文 时间:
2020-11-25 13:04:03
阅读次数:
26
1.大数据架构图谱 文件系统 HDFS Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。 GlusterFS 是一个集群的文件系统 ...
分类:
其他好文 时间:
2020-11-25 12:06:50
阅读次数:
8
一、 初始化工作: 1. 准备三台机器 hostanme IP 用途 master 192.168.0.10 namenode node1 192.168.0.11 datenode node2 192.168.0.12 datenode 在三台机器上做下面的动作 2. 编辑/etc/hosts 1 ...
分类:
其他好文 时间:
2020-11-23 12:38:36
阅读次数:
12
最近经常有小伙伴留言,核心问题都比较类似,就是虽然接触Spark有一段时间了,但是搞不明白一个问题,为什么我从HDFS上加载不同的文件时,打印的分区数不一样,并且好像spark.default.parallelism这个参数时不是一直起作用?其实笔者之前的文章已有相关介绍,想知道为什么,就必须了解S... ...
分类:
其他好文 时间:
2020-11-23 12:25:04
阅读次数:
5
01 我们一起学大数据 老刘今天开始了大数据Hadoop知识点的复习,Hadoop包含三个模块,这次先分享出Hadoop中的HDFS模块的基础知识点,也算是对今天复习的内容进行一次总结,希望能够给想学大数据的同学一点帮助,也希望能够得到大佬们的批评和指点!(每个点都很重要,都不能忽视) 02 需谨记 ...
分类:
其他好文 时间:
2020-11-23 12:18:23
阅读次数:
6
hdfs的写入过程和读取过程 hdfs的写入过程 1、客户端(Client)发出请求(将请求发给namenode),要将大小为300M的a.txt文件上传到 根目录下(/a.txt) 2、namenode对收到的请求做出检测;检测1:所上传的路径下是否存在该文件,(即根目录下是否有a.txt),检测 ...
分类:
其他好文 时间:
2020-11-23 12:16:27
阅读次数:
4
@ 1.Docker概述 1.1Docker为什么会出现 一款产品:开发--》上线,需要两套环境!应用环境,应用配置! 开发 运营之间产生问题:我在我的电脑上可以运行!版本更新导致服务不可用!对于运维就很难 开发即运维! 环境配置十分麻烦,每一个机器都要部署环境(集群Redis、ES、Hadoop。 ...
分类:
其他好文 时间:
2020-11-21 12:47:24
阅读次数:
31