Presto

时间：2020-03-19 15:23:35 阅读：57 评论：0 收藏：0 [点我收藏+]

标签：phoenix nat 建议 host 效果 html 令行客户端提升

1、概念

presto是一个开源的分布式SQL查询引擎
数量支持GB到PB字节
主要用来处理秒级查询的场景

注意：虽然presto可以解析SQL，但它不是一个标准的数据库不是mysql，oracle的代替品，也不能用来处理在线事务（OLTP）

2、Presto架构

技术图片

presto由一个coordinator和多个worker组成

由客户端提交查询，从presto命令行CLI提交到Coordinator
Coordinator解析查询计划，然后把任务分发给worker执行
worker负责执行任务和处理数据
catelog标书数据源，一个catelog包括connector和shcema、table
- connector是适配器，用于Presto和数据源（如hive，redis）的连接，类似于JDBC
- Schema类似于mysql中数据库
- table类似于mysql中表
Coordinator是负责从worker获取结果并返回最终结果给client

3、Presto优缺点

技术图片

优点
- presto基于内存运算，减少了IO，计算快
- 能够连接多个数据源，跨数据源连表查，如从hive查询大量网站访问记录，然后从mysql中匹配出设备信息
缺点
- presto能够处理PB级别的海量数据分析，但Presto并不是把PB级数据都放在内存中计算的，而是根据场景，如Count，avg等聚合运算，是边读数据边计算，再清内存，再读数据计算，这种耗内存并不高
- 但是连表查，就可能产生大量的临时数据，因此速度会变慢，反而hive此时会更擅长

4、 Presto、Impala性能比较

Impala性能稍领先于presto,但是presto在数据源支持上非常丰富，包括hive、图数据库、传统关系型数据库、Redis等

缺点：这两种对hbase支持的都不好，presto 不支持，但是对hdfs、hive兼容性很好，其实这也是顺理成章的，所以数据源的处理很重要，针对hbase的二级索引查询可以用phoenix，效果也不错

5、presto可视化

Presto + Superset 数据仓库及BI

Presto + yanagishima

6、Presto优化数据存储

6.1 合理设置分区

与Hive类似，Presto会根据元数据信息读取分区数据，合理的分区能减少Presto数据读取量，提升查询性能。

6.2 使用列式存储

Presto对ORC文件读取做了特定优化，因此在Hive中创建Presto使用的表时，建议采用ORC格式存储。相对于Parquet，Presto对ORC支持更好。

6.3 使用压缩

数据压缩可以减少节点间数据传输对IO带宽压力，对于即席查询需要快速解压，建议采用Snappy压缩。

7、 Presto优化之查询SQL

7.1 只选择使用的字段

由于采用列式存储，选择需要的字段可加快字段的读取、减少数据量。避免采用*读取所有字段。

[GOOD]: SELECT time, user, host FROM tbl

[BAD]: SELECT * FROM tbl

7.2 过滤条件必须加上分区字段

对于有分区的表，where语句中优先使用分区字段进行过滤。acct_day是分区字段，visit_time是具体访问时间。

[GOOD]: SELECT time, user, host FROM tbl where acct_day=20171101

[BAD]: SELECT * FROM tbl where visit_time=20171101

7.3 Group By语句优化

合理安排Group by语句中字段顺序对性能有一定提升。将Group By语句中字段按照每个字段distinct数据多少进行降序排列。

[GOOD]: SELECT GROUP BY uid, gender

[BAD]: SELECT GROUP BY gender, uid

7.4 Order By时使用Limit

Order by需要扫描数据到单个worker节点进行排序，导致单个worker需要大量内存。如果是查询Top N或者Bottom N，使用limit可减少排序计算和内存压力。

[GOOD]: SELECT * FROM tbl ORDER BY time LIMIT 100

[BAD]: SELECT * FROM tbl ORDER BY time

7.5 使用Join语句时将大表放在左边

Presto中join的默认算法是broadcast join，即将join左边的表分割到多个worker，然后将join右边的表数据整个复制一份发送到每个worker进行计算。如果右边的表数据量太大，则可能会报内存溢出错误。

[GOOD] SELECT ... FROM large_table l join small_table s on l.id = s.id

[BAD] SELECT ... FROM small_table s join large_table l on l.id = s.id

8、注意事项

8.1 字段名引用

避免和关键字冲突：MySQL对字段加反引号`、Presto对字段加双引号分割

当然，如果字段名称不是关键字，可以不加这个双引号。

8.2 时间函数

对于Timestamp，需要进行比较的时候，需要添加Timestamp关键字，而MySQL中对Timestamp可以直接进行比较。

/*MySQL的写法*/

SELECT t FROM a WHERE t > ‘2017-01-01 00:00:00‘;

/*Presto中的写法*/

SELECT t FROM a WHERE t > timestamp ‘2017-01-01 00:00:00‘;

8.3 不支持INSERT OVERWRITE语法

Presto中不支持insert overwrite语法，只能先delete，然后insert into。

8.4 PARQUET格式

Presto目前支持Parquet格式，支持查询，但不支持insert。

Presto

标签：phoenix nat 建议 host 效果 html 令行客户端提升

原文地址：https://www.cnblogs.com/hyunbar/p/12524337.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

Presto

1、概念

2、Presto架构

3、Presto优缺点

4、 Presto、Impala性能比较

5、presto可视化

6、Presto优化数据存储

6.1 合理设置分区

6.2 使用列式存储

6.3 使用压缩

7、 Presto优化之查询SQL

7.1 只选择使用的字段

7.2 过滤条件必须加上分区字段

7.3 Group By语句优化

7.4 Order By时使用Limit

7.5 使用Join语句时将大表放在左边

8、 注意事项

8.1 字段名引用

8.2 时间函数

8.3 不支持INSERT OVERWRITE语法

8.4 PARQUET格式

8、注意事项