码迷,mamicode.com
首页 > 其他好文 > 详细

大数据开发实战:Hive优化实战3-大表join大表优化

时间:2018-08-17 11:26:45      阅读:173      评论:0      收藏:0      [点我收藏+]

标签:优化方案   eve   超过   优化   比例   实战   大数   多少   hive   

  5、大表join大表优化

      如果Hive优化实战2中mapjoin中小表dim_seller很大呢?比如超过了1GB大小?这种就是大表join大表的问题。首先引入一个具体的问题场景,然后基于此介绍各自优化方案。

   5.1、问题场景

      问题场景如下:

      A表为一个汇总表,汇总的是卖家买家最近N天交易汇总信息,即对于每个卖家最近N天,其每个买家共成交了多少单,总金额是多少,假设N取90天,汇总值仅取成交单数。A表的字段有:buyer_id、

    seller_id、pay_cnt_90day。

      B表为卖家基本信息表,其字段有seller_id、sale_level,其中sale_levels是卖家的一个分层评级信息,比如吧卖家分为6个级别:S0、S1、S2、S3、S4和S5.

      要获得的结果是每个买家在各个级别的卖家的成交比例信息,比如:

      某买家:S0:10%;S1:20%;S2:20%;S3:10%;S4:20%;S5:10%。

      

    参考资料:《离线和实时大数据开发实战》

大数据开发实战:Hive优化实战3-大表join大表优化

标签:优化方案   eve   超过   优化   比例   实战   大数   多少   hive   

原文地址:https://www.cnblogs.com/shaosks/p/9491905.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!