Presto 介绍

可以参考 Presto 在有赞的实践之路

使用场景

  • 跨库关联查询
  • 即席数据分析
  • 临时报表制作
  • 等等,有待大家实践

文档

https://prestodb.io/docs/0.227/
其中着重关注一下

注意点

我们使用的Presto为 阿里云数据湖 共享集群,计费方式为SQL执行时,扫描原始表的大小(字面意义的大小,bytes)。
(阿里云数据湖共享方案对于当前团队的需求可以满足,费用也足够便宜。一般情况我们可以得到10cpu左右的性能,够用。)
所以有一些情况,可能会非常容易消耗大量的流量。
以下为示例(错误用法):

  1. SELECT *
  2. FROM alihalt.tb_third_hospital_order_error_record thoerr
  3. JOIN mytijian_trade.tb_order ord ON ord.order_num=thoerr.order_num
  4. LIMIT 100

这条SQL并不会因为limit 100 减少扫描量,而是会扫描全量的结果,再到Presto中执行 limit操作……
于是令人窒息的是,这条SQL的执行结果:
dla_sql_log
消耗了6.32GB的流量,执行了5分40秒!
所以在使用Presto过程中,需要注意与OLTP 数据库(MySQL)的区别,减少开销,提高速度。

文档更新时间: 2021-07-01 22:26