oozie调用spark有三样是必须有的: workflow.xml(不可改名) , job.properties(可改名) , jar包(自备). 1.workflow.xml workflow.xml需要放到hdfs中 2.job.properties job.properties放在本地目录中 ...
分类:
其他好文 时间:
2017-08-29 14:27:05
阅读次数:
218
Oozie协作框架 一:概述 1.大数据协作框架 2.Hadoop的任务调度 3.Oozie的三大功能 Oozie Workflow jobs Oozie Coordinator jobs Oozie Bundle 4.Oozie的架构 控制流节点 起始,分支,并发,汇合,结束 动作节点action ...
分类:
其他好文 时间:
2017-08-23 00:44:50
阅读次数:
440
前言 本人是由java后端转型大数据方向,目前也有近一年半时间了,不过我平时的开发平台是阿里云的Maxcompute,通过这么长时间的开发,对数据仓库也有了一定的理解,ETL这些经验还算比较丰富。但是由于Maxcompute是一个更简单的大数据开发平台,导致个人在分布式计算的底层一些知识比较薄弱,所 ...
分类:
其他好文 时间:
2017-08-01 15:38:05
阅读次数:
203
基本概念 眼下计算框架和作业类型繁多: MapReduce Java、Streaming、HQL、Pig等 怎样对这些框架和作业进行统一管理和调度: 不同作业之间存在依赖关系(DAG); 周期性作业 定时运行的作业 作业运行状态监控与报警 多种解决方式: Crontab 自己设计调度系统 直接使用开 ...
分类:
其他好文 时间:
2017-07-23 11:19:21
阅读次数:
176
在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架。 日志采集框架Flume Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和 ...
分类:
Web程序 时间:
2017-07-21 23:25:52
阅读次数:
310
Oozie使用教程 一. Oozie简介 Apache Oozie是用于Hadoop平台的一种工作流调度引擎。 - 统一调度hadoop系统中常见的mr任务启动hdfs操作、shell调度、hive操作等。 - 使得复杂的依赖关系时间触发事件触发使用xml语言进行表达开发效率提高。 - 一组任务使用 ...
分类:
其他好文 时间:
2017-06-18 13:28:29
阅读次数:
11802
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, ...
分类:
其他好文 时间:
2017-06-01 11:19:26
阅读次数:
252
第一次在cnblogs上发表文章,效果肯定不会好,希望各位多包涵。 编写这个文档的背景是月中的时候,部门老大希望我们能够抽时间学习一下Hadoop大数据方面的技术;给我的学习内容是通过Ambari安装Hadoop集群。通过一周左右的学习和实践,整理出现在这篇安装心得。 安装默认使用Root用户,避免 ...
分类:
其他好文 时间:
2017-05-27 15:26:42
阅读次数:
533
一旦数据仓库开始使用,就需要不断从源系统给数据仓库提供新数据。为了确保数据流的稳定,需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分,它不但是数据仓库的基...
分类:
其他好文 时间:
2017-05-19 11:12:53
阅读次数:
1770
离线计算 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示 代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、azkaban/oozie任务调度 流式计算 流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示 代表 ...
分类:
其他好文 时间:
2017-05-15 23:52:38
阅读次数:
465