标签:pac 项目 数据清洗 roman 冻结 表名 inf 导入 安装
流程图如下:
 
说明:
1: OGG同步表清单
| 
 表名  | 
 注释  | 
 数据量  | 
 表大小/GB  | 
| 
 SH_LOSS_MID.LOSS_YC_MRCJDLDJSJ_CONSGZB  | 
 日冻结电量  | 
 8900467833  | 
 561.39  | 
| 
 SH_LOSS.C_METER_MP_RELA  | 
 表计关系表  | 
 13778340  | 
 0.7  | 
| 
 SH_LOSS.C_MP  | 
 计量点  | 
 12016874  | 
 2.83  | 
| 
 SH_LOSS.C_METER  | 
 表计信息  | 
 13766620  | 
 2.05  | 
| 
 SH_LOSS.LOSS_ARCH_REL_TG_TRAN  | 
 台变关系表  | 
 139036  | 
 0.02  | 
| 
 SH_LOSS.LOSS_ARCH_REL_YXMP_PDTRAN  | 
 台户关系表  | 
 11050530  | 
 1.98  | 
| 
 SH_LOSS.C_CONS  | 
 用户表  | 
 12690949  | 
 1.68  | 
2: OGG安装位置 /home/goldengate/
Ogg复制进程主要有repsa,repsb .
Rpesa 进程同步表为SH_LOSS.C_METER_MP_RELA
SH_LOSS.C_MP
SH_LOSS.C_METER
SH_LOSS.LOSS_ARCH_REL_TG_TRAN
SH_LOSS.LOSS_ARCH_REL_YXMP_PDTRAN
SH_LOSS.C_CONS
Repsb 进程同步表为LOSS_YC_MRCJDLDJSJ_CONSGZB
3:ETL进程
ETL进程主要是调用sp_c_read_gsy_flatten, sp_c_read_gsy_flatten_add两个存储过程,将源数据清洗进GSY目标大宽表中.
4:FDA数据清洗
FDA数据清洗主要是将GSY大宽表中的数据先导出成txt文件(为了使处理速度达到最优,最好每个文件大小为20M左右),再在星环大数据平台中使用discover工具,调用相关R程序脚本进行数据清洗.成功后在将数据导入到星环大数据云平台.
标签:pac 项目 数据清洗 roman 冻结 表名 inf 导入 安装
原文地址:https://www.cnblogs.com/qfdy123/p/12625227.html