今天在将一个hive数仓表导出到mysql数据库时出现进度条一直维持在95%一段时间后提示失败的情况,搞了好久才解决。使用的环境是HUE中的Oozie的workflow任何调用sqoop命令,该死的oozie的日志和异常提示功能太辣鸡了,最后发现是重复数据导致数据进入mysql表时出现主键冲突进而导 ...
分类:
数据库 时间:
2019-01-16 19:17:59
阅读次数:
597
重点组件:HDFS:Hadoop的分布式文件存储系统MapReduce:Hadoop的分布式程序运算框架,也可以叫做一种编程模型Hive:基于Hadoop的类SQL数据仓库工具HBase:基于Hadoop的列式分布式NoSQL数据库ZooKeeper:分布式协调服务组件Mahout:基于MapReduce/Flink/Spark等分布式运算框架的机器学习算法库Oozie/Azkaban:工作流调度
分类:
其他好文 时间:
2019-01-11 14:19:16
阅读次数:
174
今天在做在hue当中,实现oozie的调度然后发送邮件到邮箱的操作报错信息如下: org.apache.oozie.action.ActionExecutorException: EM007: Encountered an error while sending the email message ...
分类:
编程语言 时间:
2019-01-07 17:42:46
阅读次数:
631
如果oozie使用kill -9 暴力杀死了tomcat,再启动的时候,会出问题,需要删除tomcat的pid文件 彻底停止oozie的tomcat的进程,然后删除pid文件 rm -rf /export/servers/oozie-4.1.0-cdh5.14.0/oozie-server/temp ...
分类:
其他好文 时间:
2018-12-13 20:21:54
阅读次数:
1295
常见调度框架实现方式 开源 Oozie 成熟稳定可靠,可直接用于生产环境 Azkaban 单点、简单粗暴,有两套独立的调度实现,必须二次开发才可用 Airflow 代码以及流程配置都是python 自己封装 基于quartz单机 使用zk来做分布式控制 常用quartz+zk做调度系统 使用db心跳 ...
分类:
其他好文 时间:
2018-12-12 19:04:14
阅读次数:
237
对于普通的java-action或者shell-action 都是支持的只要标准输出是"k1=v1"这中格式的就行: 现用test.py进行测试: 将以上test.py和workflow.xml放到hdfs的/user/lyy/oozie/test目录下,使用一下命令提交: 另外如果代码中有标准输出 ...
分类:
其他好文 时间:
2018-12-10 14:09:29
阅读次数:
229
大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)大数据的应用:预测犯罪的发生;预测禽流感的散布;美国选举结果;利用手机定位数据和交通数据建立城市规划;电商把假货卖给谁等等。大数据涉及到的技术: ...
分类:
其他好文 时间:
2018-11-19 21:45:16
阅读次数:
210
1 oozie如何查看任务日志? 通过oozie job id可以查看流程详细信息,命令如下: oozie job -info 0012077-180830142722522-oozie-hado-W 流程详细信息如下: Job ID : 0012077-180830142722522-oozie- ...
分类:
其他好文 时间:
2018-11-02 16:00:33
阅读次数:
328
出现上述原因是oozie把数据导入hive时,查不了hive元数据。 解决方法: 在hive-site.xml 添加属性: 然后在oozie 添加属性(配置hive路径): 或在cloudera manager上配置: ...
分类:
数据库 时间:
2018-10-19 14:12:21
阅读次数:
884
使用oozie来调度操作,用shell的action执行命令,其中shell里包含着hive -e 操作执行时,oozie窗口报 这个异常,对应的在yarn的history里找到上面给出的job_id > job_1533108188813_12125 对应的日志,入下图 图中给出launch时候内 ...
分类:
系统相关 时间:
2018-09-20 12:28:28
阅读次数:
531