导读
近期,PingCAP 与华东师范大学(ECNU)数据科学与工程学院的两篇合作论文成功入选三大国际顶级学术会议之一 ICDE 2025(第 41 届 IEEE 国际数据工程大会)。
在数据智能时代,数据库系统面临着数据规模的指数级增长、业务场景的日益复杂以及 AI 技术与数据基础设施深度融合等多重挑战。这两项研究成果,正是我们在这些挑战下所做的一些阶段性探索。我们希望通过开放分享这些成果,与学界及产业界同仁共同探讨数据库技术的未来演进方向。

入选论文一
《Hyper:Hybrid Physical Design Advisor with Multi-Agent Reinforcement Learning》
论文作者:
Zhicheng Pan(ECNU; PingCAP), Yuanjia Zhang(PingCAP), Chengcheng Yang(ECNU), Ahmad Ghazal(PingCAP), Rong Zhang(ECNU), Huiqi Hu(ECNU), Xiaoju Wu(PingCAP), Yu Dong(PingCAP), Xuan Zhou(ECNU)
研究亮点:
在 HTAP(混合事务分析处理)场景中,合理的物理设计(尤其是索引与列存副本)对加速查询、提升性能至关重要。传统的索引构建方式依赖专家经验,不仅效率偏低,也难以适应复杂多变的查询需求。同时,现有的索引推荐技术仍面临搜索空间巨大、物理设计间交互复杂、以及假设优化器(What-if Optimizer)评估偏差较大等挑战。
本研究提出了基于多智能体强化学习的混合物理设计推荐算法 Hyper。Hyper 引入了三项关键技术:一是结合专家规则和在线动作掩码(Masking)机制,分阶段过滤无效动作(即候选物理设计),显著压缩搜索空间;二是构建基于价值分解网络的多智能体协同架构,建模物理设计之间的复杂依赖关系,并实现更精细的奖励分配;三是设计贝叶斯网络增强的假设优化器,作为“试金石”引导物理设计推荐质量。
TiDB 在 V8.5 版本中引入了自动化索引推荐工具 TiDB Index Advisor,它能基于查询语句自动识别索引敏感列,并通过假设优化器迭代组合索引配置。本项研究成果 Hyper 在此基础上作了进一步的增强,为自动化物理设计优化提供了一种更智能、更高效的解决方案。实验结果表明,Hyper 在多个标准工作负载下显著优于现有先进方法,兼顾了推荐质量与执行效率,对未来 HTAP 数据库的发展和优化具有显著的实用价值。

论文链接:
https://www.computer.org/csdl/proceedings-article/icde/2025/360300b565/26FZAbicw2A
入选论文二
《Machine Learning Inference Pipeline Execution Using Pure SQL Based on Operator Fusion》
论文作者:
Qingfeng Pan(ECNU; PingCAP), Jiahe Zhi(ECNU), Chenyang Zhang(ECNU), Chen Xu(ECNU), Zhao Zhang(ECNU), Anita Shao(PingCAP), Guanglei Bao(PingCAP), Qiu Cui(PingCAP), Xiaowei Chen(PingCAP), Aoying Zhou(ECNU)
研究亮点:
随着 AI 的快速发展,越来越多的业务系统需要对存储在数据库中的数据进行 AI 分析,如欺诈交易检测。传统实现方式依赖于用户自定义函数(UDF)调用外部机器学习库,如 Scikit-learn。然而,这种方式在执行 AI 分析任务时需要横跨两个系统,产生跨系统开销,且需要投入大量人力开发与维护 UDF 功能。另一种思路是将机器学习算子转换为纯 SQL(ML2SQL),使得用户可以在数据库中原生执行机器学习推理任务,这种方式虽然避免了跨系统开销,但往往 SQL 查询性能欠佳。
本项研究观察到,用 SQL 表达的机器学习算子间存在丰富的融合机会,提出基于算子融合的 ML2SQL 新框架 Craftsman 。在 FTBench 等基准负载测试下,Craftsman 相较于业界前沿的 SQL 生成技术,性能提升了 1-2 个数量级。不仅如此,Craftsman 可移植到多种数据库之上,实现了机器学习推理框架与数据库系统的无缝集成,有助于数据库扩展其 AI 推理能力。

论文链接:
https://www.computer.org/csdl/proceedings-article/icde/2025/360300d397/26FZBI0xYZi
结语
这两项研究成果的入选,是我们在 AI 时代数据处理新范式探索过程中的一些新进展。
我们相信,数据库技术的进步更像一场协力推进的“接力赛”,而非“独角戏”。基于此,PingCAP 始终拥抱开源,并积极携手学术界伙伴。过去数年,我们在数据库产品架构、存储内核、AI 与优化器技术、LLM 应用等方向持续投入预研与实践,不断夯实 TiDB 生态产品的技术根基。截至 2025 年 5 月,我们已参与发表论文 60 篇,其中 ICDE/VLDB/SIGMOD 三大顶会论文 10 篇,这些都是我们与社区共享的思考与阶段性成果。
我们同样深信,技术的价值在于应用。因此,我们努力将探索过程中的复杂性留给自己,致力于为用户打造更易用、更强大的数据库产品,让技术创新真正转化为千行百业的数据生产力。
未来,PingCAP 将继续秉持严谨的工程态度与开放的学术精神,与更多同行者一道,踏实前行,共同推动数据库技术的边界,将更好的产品体验带给每一位用户。
目录