标签:告诉 detail 完全 log ref 分区 一个 tps 验证
从使用MySQL阶段,到前阵子跳槽到新公司开始使用hive,面对的表变多,数据量也完全超过之前。基本是随便核查个问题都已经不是Excel能承担得起的了。
于是重心变成了Python。。。
这是题外话,这里要将的是最近遇到的坑——数据仓库中的一张表到底是怎么记录的?
话说一个月之前我还是连分区是啥都不知道的人啊。
几天前,当我在表管理查到这张表是个全量处理的时候,我天真的以为dt设置为昨天就可以跑所有当前状态的数据了。
但昨天再次跑这张表的时候,我忽然冒出个疑虑(也许是数据跑多了开始成长了。。),这张表到底是怎么记录的?
通过短暂的思索,我发挥了我“强大的”验证数据的能力,并得出一个结论:“这tm是个增量表”。。。
承受着巨大的打击的我,暗戳戳地戳开数据群,询问着数据仓库的人,结果人家告诉我这个库都是拉链程序生成并抛给我一个拉链表的查询方式。。。
wtf?
认真的吗?这是唬我不懂这个吗?
我保持沉默,并打开了熊掌,成功搜到一篇https://blog.csdn.net/mtj66/article/details/78019370/
经过短暂的阅读,终于认识到原来不止有全量表、增量表,还有拉链表这样的东西。
但显然,那张表真的是张增量表。。。
但我是不会去辩的,与交流少还没形成默契的人用文字是说不清的。太强硬伤感情。
所以只能使用增量表的方式查询,并在后续的使用中慢慢总结规律并与数仓好好沟通改善吧。最大的改善是:不要相信他写的“全量”,也许他就只会写这俩字。。。。自己验证吧。
看这篇文字,说得很清楚了:
https://blog.csdn.net/mtj66/article/details/78019370/
标签:告诉 detail 完全 log ref 分区 一个 tps 验证
原文地址:https://www.cnblogs.com/everda/p/9293791.html