标签:oca oracl 需要 分区 partition sql hive 更新 合并
数据仓库建设中的数据抽取环节,常常需要增量抽取业务库数据。但业务库数据不是一层不变的,会根据时间发生状态变更,那么就需要同步更新变化数据到HIVE中。过去在Oracle上做数据仓库时,可以使用merge的方法合并新老数据。但hive中没有该功能,本文旨在通过sqoop抽取后,自动实现数据合并。
将抽取表分为三张,
use ods;
insert overwrite table mytable_arc partition (pt=‘20200407‘)
select coalesce(a.id,b.id), if(a.id is null, b.type, a.type), if(a.id is null, b.amt, a.amt) from (
select id, type, amt
from mytable_inc where pt=‘20200407‘
) a full join (
select id, type, amt
from mytable_arc where pt=‘20200406‘
) b on a.%s = b.%s"
use ods;
alter table mytable set location ‘hdfs://hadoop01:9000/user/hive/warehouse/ods.db/mytable_arc/pt=20200407‘"
SQOOP增量抽取时,在HIVE中实现类似Oracle的merge操作
标签:oca oracl 需要 分区 partition sql hive 更新 合并
原文地址:https://www.cnblogs.com/hupingzhi/p/12654898.html