一次多表关联顺序导致的慢查询分析 TiDB 关联特性解读

网友投稿 867 2024-03-29

1. 背景介绍

1.1 基础表

用户表

CREATE TABLE users ( id int primary key auto_increment, name varchar(30), key `name` (`name`) )

帖子表

CREATE TABLE posts ( id int primary key auto_increment, title varchar(300), content text, user_id int, cate_id int, key `user_id` (`user_id`), key `cate_id` (`cate_id`) );

帖子分类表

CREATE TABLE post_type ( id int primary key auto_increment, type varchar(10), name varchar(30) );

1.2 需求

根据用户名获取该用户的某个分类下的帖子列表。

一次多表关联顺序导致的慢查询分析 TiDB 关联特性解读

2. 问题

接到这个任务，看上去真的很简单，用户表关联帖子表关联帖子分类表即可查询到数据。

select title, content, type from users a, posts b, post_type c where a.id = b.user_id and b.cate_id = c.id and a.name = name1 and c.type = type1 limit 10;

写完 SQL，当然要分析下 SQL 性能了。

怎么回事，索引和预期走的不一样，怎么是帖子表 b 和帖子分类表 c 先做了一次 HashJoin？

线上帖子表 b 数据很多，与分类表 c 做关联的话，那岂不是慢查询！

为什么不是用户表 a 和帖子表 b 先做关联呢，这两个表做关联之后数据就很少了，查询应该不会慢。

3. 解决过程

3.1 ANALYZE

尝试一下之前还没切换 TiDB 的 MySQL 测试环境，执行符合预期啊！

看起来是 TiDB 的特性嘛！论坛里搜一搜先！

这个帖子结帖信息就很相似啊，执行计划选择错误！

那来看一下 ANALYZE 的作用，为什么会导致这种情况呢？

ANALYZE 语句用于更新 TiDB 在表和索引上留下的统计信息。执行大批量更新或导入记录后，或查询执行计划不是最佳时，建议运行 ANALYZE。

当 TiDB 逐渐发现这些统计数据与预估不一致时，也会自动更新其统计数据。

看了描述，测试环境应该没有大量删除和导入，死马当活马医，对三个表执行了下 analyze，果然没有效果。

论坛继续搜了搜也没有很符合的案例，但不怕，官方文档里还有有 SQL 性能调优系列文档，一篇篇翻下来吧，应该能找到问题。

3.2 Join Reorder 算法

皇天不负有心人，这个 Join Reorder 算法好像有点意思。

在实际的业务场景中，多个表的 Join 语句是很常见的，而 Join 的执行效率和各个表参与 Join 的顺序有关系。

如 select * from t1, t2, t3 where t1.a=t2.a and t3.a=t2.a，这个 SQL 中可能的执行顺序有 “t1 和 t2 先做 Join，然后再和 t3 做 Join” 以及 “t2 和 t3 先做 Join，然后再和 t1 做 Join” 两种情况。根据 t1 和 t3 的数据量及数据分布，这两种执行顺序会有不同的性能表现。

因此优化器需要实现一种决定 Join 顺序的算法。目前 TiDB 中使用的算法是 Join Reorder 算法，又称贪心算法。

当前的 Join Reorder 算法存在如下限制：

受结果集的计算算法所限并不会保证一定会选到合适的 Join order

很符合我的情况，帖子分类表最小，所以会用帖子分类表 c 来去尝试和用户表 a 和帖子表 b 分别做 Join。

然后就选择了帖子表 b 和帖子分类表 c 做关联。

但因为帖子表数据量非常大，帖子分类表很小，这两个表做关联的话，关联后的结果很多。

而用户表 a 和帖子表 c 关联，可能只有几十条数据，之后再关联分类表 C 这才是一个最佳的执行路径！

既然找到了问题，那 TiDB 当然有现成的解决方案！

3.3 STRAIGHT_JOIN

目前 TiDB 中支持使用 STRAIGHT_JOIN 语法来强制指定一种 Join 顺序。

STRAIGHT_JOIN() 提示优化器在生成表连接顺序时按照表名在 FROM子句中出现的顺序进行连接。

SELECT /*+ STRAIGHT_JOIN() */ * FROM t t1, t t2 WHERE t1.a = t2.a;

来来来，试一下：

果然，执行结果按照顺序选择了最优执行路径，问题解决！

4. 总结

虽然 TiDB 支持了几乎 100% 的 M有SQL 语法，但还是会有很多由于实现、分布式等原因导致由一些独有的特性。

因此，在使用时，不能经验主义，每个 SQL 还是要老老实实在 TiDB 中执行一次，确认是否符合预期。

如果不符合预期，那也不用怕，TiDB 的论坛和文档很丰富，慢慢看，别着急，总有一款适合你的解决方案。

参考文档：

与 MySQL 兼容性对比

SQL 性能调优

ANALYZE 文档

ANALYZE TABLE 作用 - TiDB - TiDB 的问答社区 (asktug.com)

标签：TiDB MySQL 兼容性

一次多表关联顺序导致的慢查询分析 TiDB 关联特性解读

1. 背景介绍

1.1 基础表

用户表

帖子表

帖子分类表

1.2 需求

2. 问题

3. 解决过程

3.1 ANALYZE

3.2 Join Reorder 算法

3.3 STRAIGHT_JOIN

4. 总结

黄东旭解析 TiDB 的核心优势

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20

一次多表关联顺序导致的慢查询分析 TiDB 关联特性解读

1. 背景介绍

1.1 基础表

用户表

帖子表

帖子分类表

1.2 需求

2. 问题

3. 解决过程

3.1 ANALYZE

3.2 Join Reorder 算法

3.3 STRAIGHT_JOIN

4. 总结

微信扫一扫：分享

推荐文章

友情链接

热评文章