标签:image 交易 商品 昨天 增加 creat 比较 分区 png
采集类型:
全量 采集: 相当于每天整张表做个快照,在hdfs上就是一个分区 ,表比较小
增量采集: 采集每天增加的部分
1、流水型数据 :
写入数据库数据不再发生变化(如日志,交易流水) , 第二天处理前一天的数据
采集条件可设为
1/ 按时间增量的抽取 ,sqoop:
create_time>=T-1 00:00:00
create_time<=T 00:00:00
2/ 按表的自增ID,每张表都有个自增ID
2、每天会发生变化 (如商品):
1/表比较小 ,每天采集全量
2/ 表比较大
必须有两个字段,create_time, updated_time字段
昨天发生变化的数据+昨日新增的数据 ,采集条件:updated_time >=T-1 00:00:00
and create_time < T 00:00:00
标签:image 交易 商品 昨天 增加 creat 比较 分区 png
原文地址:https://www.cnblogs.com/hongfeng2019/p/12048492.html