码迷,mamicode.com
首页 > 其他好文 > 详细

azkaban工作流调度器

时间:2020-07-20 13:26:58      阅读:71      评论:0      收藏:0      [点我收藏+]

标签:web服务   azkaban   需要   形式   工作   计算框架   sof   tab   base   

1、用途

一个完整的数据分析系统通常都是由大量任务单元组成:

shell脚本程序,java程序,mapreduce程序、hive脚本等

各任务单元之间存在时间先后及前后依赖关系

 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;

例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,处理步骤如下所示:

1、  通过Hadoop先将原始数据同步到HDFS上;

2、  借助MapReduce计算框架对原始数据进行转换,生成的数据以分区表的形式存储到多张Hive表中;

3、  需要对Hive中多个表的数据进行JOIN处理,得到一个明细数据Hive大表;

4、  将明细数据进行复杂的统计分析,得到结果报表信息;

需要将统计分析得到的结果数据同步到业务系统中,供业务调用使用

2、安装部署

Azkaban Web服务器

azkaban-web-server-2.5.0.tar.gz

Azkaban执行服务器 

azkaban-executor-server-2.5.0.tar.gz

3、解压上面两个压缩包,并且命名为server和executor

mysql -uroot -p
mysql> create database azkaban;
mysql> use azkaban;
Database changed
mysql> source /soft/azkaban/azkaban-2.5.0/create-all-sql-2.5.0.sql;
show tables;

4、

azkaban工作流调度器

标签:web服务   azkaban   需要   形式   工作   计算框架   sof   tab   base   

原文地址:https://www.cnblogs.com/xiaofeiyang/p/13344153.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!