在将ORACLE存储过程迁移到HIVE平台时,不可避免地会遇到各种问题。
ORACLE与HIVE都使用SQL语句,但是语法和特性不尽相同,本文简述了几个迁移时需要注意的地方。
一.INSERT语句
ORACLE:
EXECUTE IMMEDIATE ‘TRUNCATE TABLE TABLE_A‘; INSERT /*+APPEND*/ INTO A NOLOGGING ( COL_1, COL_2, COL_3, )
迁移至HIVE语句为:
INSERT OVERWRITE TABLE TABLE_A;
OVERWRITE关键字声明插入数据时覆盖原有数据,和TRUNCATE清空表数据再INSERT效果相同。
注意HIVE插入表时不能指定插入的字段,因为HIVE存储的是非结构化的数据。
二.表关联
ORACLE:
SELECT /*+PARALLEL (A,8)*/ * FROM A, B ,C WHERE A.COL_1 = B.COL_1(+) AND A.COL_1 = C.COL_1(+)
迁移至HIVE语句为:
SELECT * FROM A LEFT OUTER JOIN B ON A.COL_1 = B.COL_1 LEFT OUTER JOIN C ON A.COL_1 = C.COL_1
ORACLE注释/*+PARALLEL (A,8)*/需要删除,左关联的语法需要改为HIVE的关联语法。
ORACLE和HIVE的各种关联语法对比,请移步
http://blog.csdn.net/henryfabrgeas/article/details/24689935
三.表的别名
ORACLE:
SELECT * FROM (SELECT * FROM A) GROUP BY COL_1
当需要类似的子查询语句时,迁移至HIVE时需要给子查询起别名,否则会报语法错误。
迁移至HIVE语句为:
SELECT * FROM (SELECT * FROM A) B GROUP BY B.COL_1
四.HIVE特性
在迁移的时候,会遇到一些HIVE的特性导致无法顺利迁移,如下ORACLE语句:
SELECT * FROM A GROUP BY A.COL_1 HAVING COUNT(DISTINCT A.COL_2) = 2
在HIVE中运行会遇到如下报错:
FAILED: SemanticException [Error 10002]: Line 19:22 Invalid column reference ‘COL_2‘
去掉DISTINCT后可以正常执行。
属于HIVE的特性导致的问题,HAVING子句中无法使用DISTINCT关键字,在迁移中需要进行取舍。
五.报错
1.迁移后字段数据类型有误,需要修改数据类型。
FAILED: SemanticException [Error 10016]: Line 28:5 Argument type mismatch ‘COL_1‘: The expression after ELSE should have the same type as those after THEN: "int" is expected but "double" is found
2.
org.apache.hadoop.hive.ql.parse.SemanticException: Big Table Alias is null
关联时主表数据为空,需要插入数据再进行测试。
原文地址:http://blog.csdn.net/henryfabrgeas/article/details/24766875