标签:优化方案 eve 超过 优化 比例 实战 大数 多少 hive
如果Hive优化实战2中mapjoin中小表dim_seller很大呢?比如超过了1GB大小?这种就是大表join大表的问题。首先引入一个具体的问题场景,然后基于此介绍各自优化方案。
问题场景如下:
A表为一个汇总表,汇总的是卖家买家最近N天交易汇总信息,即对于每个卖家最近N天,其每个买家共成交了多少单,总金额是多少,假设N取90天,汇总值仅取成交单数。A表的字段有:buyer_id、
seller_id、pay_cnt_90day。
B表为卖家基本信息表,其字段有seller_id、sale_level,其中sale_levels是卖家的一个分层评级信息,比如吧卖家分为6个级别:S0、S1、S2、S3、S4和S5.
要获得的结果是每个买家在各个级别的卖家的成交比例信息,比如:
某买家:S0:10%;S1:20%;S2:20%;S3:10%;S4:20%;S5:10%。
参考资料:《离线和实时大数据开发实战》
标签:优化方案 eve 超过 优化 比例 实战 大数 多少 hive
原文地址:https://www.cnblogs.com/shaosks/p/9491905.html