00-前言 初步撰写了azkaban Multi Executor Server 模式的部署说明,只是在单一节点上同时部署了web以及excutor。多excutor的情况可能会稍有不一样,待完善 01-环境介绍 1.基础环境介绍 CentOS7 azkaban 3.81.0 jdk 8 注意:需要 ...
分类:
其他好文 时间:
2019-12-20 11:49:17
阅读次数:
104
hadoop@master ~]$ 1、hadoop 启动start-all.sh 停止 stop-all.sh 2、hive hive 3、zookeeper cd /home/hadoop启动 命令(每台机器都启动) zookeeper-3.4.14/bin/zkServer.sh start ...
分类:
其他好文 时间:
2019-12-16 15:01:41
阅读次数:
98
1. background in most cases, we want to execute sql script in doris routinely. using azkaban, to load data,etc.And we want to pass parameters to the s ...
分类:
数据库 时间:
2019-11-04 19:22:57
阅读次数:
112
一、Flow 2.0 简介 1.1 Flow 2.0 的产生 Azkaban 目前同时支持 Flow 1.0 和 Flow2.0 ,但是官方文档上更推荐使用 Flow 2.0,因为 Flow 1.0 会在将来的版本被移除。Flow 2.0 的主要设计思想是提供 1.0 所没有的流级定义。用户可以将属 ...
分类:
其他好文 时间:
2019-09-01 16:40:29
阅读次数:
100
一、Azkaban 介绍 1.1 背景 一个完整的大数据分析系统,必然由很多任务单元 (如数据收集、数据清洗、数据存储、数据分析等) 组成,所有的任务单元及其之间的依赖关系组成了复杂的工作流。复杂的工作流管理涉及到很多问题: 如何定时调度某个任务? 如何在某个任务执行完成后再去执行另一个任务? 如何 ...
分类:
其他好文 时间:
2019-09-01 10:33:11
阅读次数:
86
一、Azkaban 源码编译 1.1 下载并解压 Azkaban 在 3.0 版本之后就不提供对应的安装包,需要自己下载源码进行编译。 下载所需版本的源码,Azkaban 的源码托管在 GitHub 上,地址为 https://github.com/azkaban/azkaban 。可以使用 的方式 ...
分类:
其他好文 时间:
2019-09-01 10:29:28
阅读次数:
89
一、简介 Azkaban 主要通过界面上传配置文件来进行任务的调度。它有两个重要的概念: Job : 你需要执行的调度任务; Flow :一个获取多个 Job 及它们之间的依赖关系所组成的图表叫做 Flow。 目前 Azkaban 3.x 同时支持 Flow 1.0 和 Flow 2.0,本文主要讲 ...
分类:
其他好文 时间:
2019-09-01 10:20:31
阅读次数:
116
Oozie Azkaban 配置 复杂 简单 使用 重量级 轻量 调用 MapReduce、pig、Java、脚本等….. MapReduce、pig、Java、脚本等….. 定义文件 xml properties 传参 支持参数和EL表达(${fs:dirSize{myinputDir}}) 直接 ...
分类:
其他好文 时间:
2019-08-20 01:14:45
阅读次数:
116
大数据的发展历程总体上可以划分为三个重要阶段,萌芽期、成熟期和大规模应用期,20世纪90年至21世纪初,为萌芽期,随着,一批商业智能工具和知识管理技术的开始和应用,度过了数据萌芽,21世纪前十年则为成熟期,主要标志为,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行期道,2010年以后,为大规模应用期,
分类:
其他好文 时间:
2019-08-01 11:50:38
阅读次数:
132
大数据技术之Azkaban 一 概述 1.1 为什么需要工作流调度系统 1)一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 2)各任务单元之间存在时间先后及前后依赖关系 3)为了很好地组织起这样的复杂执行计划,需要一个工作 ...
分类:
其他好文 时间:
2019-07-26 09:15:11
阅读次数:
265