Impala在处理结果集较大的查询的优势

时间：2016-03-04 02:10:43 阅读：1077 评论：0 收藏：0 [点我收藏+]

近期运营出报表，查询的数据量为15年的数据量，涉及的表及表中记录数如下图所示：

刚开始的时候在MySQL中进行查询汇总，选择第一个数据量最小的表，发现MySQL 出现内存溢出，数据库使用的是腾讯云上的一台CDB，内存大小为24GB。后来将数据上传到hdfs上使用impala（数据格式为PARQUET）来查询，发现效果要好于MySQL，我们的impala是一个3节点集群，内存8GB，存储500GB SSD。查询耗时如下：

从查询的过程可以看出，impala在处理较大的数据集时有着MySQL所不具备的高性能。如果在MySQL中对5亿条记录做汇总，可能需要很高的配置了，而且运行时间不见得比impala短。

本文出自 “勇敢向前，坚决向左” 博客，请务必保留此出处http://quenlang.blog.51cto.com/4813803/1747304

Impala在处理结果集较大的查询的优势

标签：impala 大数据 mysql

原文地址：http://quenlang.blog.51cto.com/4813803/1747304

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行