2024 年 5 月,在荷兰乌得勒支举办的国际数据库顶级学术会议 ICDE 上,PingCAP 的科研实力和技术创新获得了国际权威的认可,其两篇论文成功入选。这不仅是对 PingCAP 在数据库领域贡献的认可,也是对其与高校合作科研成果的肯定。本文将简要介绍这两篇论文的核心内容,以及 PingCAP 如何通过自主开源构建全球产学研生态系统,推动关键技术的自主可控、全球合作和源头创新。
论文一
《A Fully On-disk Updatable Learned Index》
PingCAP 和皇家墨尔本理工大学(RMIT)合作入选 ICDE 2024 的研究论文《A Fully On-disk Updatable Learned Index》,该论文提出了 AULID ,一个全盘可更新的 Learned Index,结合了传统索引技术和 Learned Index 的优势,通过减少更新索引结构的开销、引入更短的路径以及实现更好的局部性来降低 I/O 成本,从而在多种工作负载类型下实现了最先进的性能表现。AULID 相比于其他 Learned Index,存储成本与 B+-tree 相当,且比其他 Learned Index 更小,性能方面比 FITing-tree、PGM、B+-tree、ALEX 和 LIPP 分别高出 2.11 倍、8.63 倍、1.72 倍、5.51 倍和 8.02 倍。AULID 通过在叶节点采用 B+-tree 风格的布局,减少了维护索引的负担,降低了插入开销。同时,AULID 仅在内部节点使用学习索引的思想来索引每个叶节点的最大键,从而减少了更新内部节点的频率,降低了结构修改操作的开销。此外,AULID 还引入了两种新的内部节点类型和处理算法,以克服传统内部节点布局的一些缺点,提高了在特定工作负载和数据集上的性能。
论文二
《Chat2Query: A Zero-Shot Automatic Exploratory Data Analysis System with Large Language Models》
PingCAP 和华东师范大学(ECNU)数据科学与工程学院合作入选 ICDE 2024 的系统演示论文《Chat2Query: A Zero-Shot Automatic Exploratory Data Analysis System with Large Language Models》,该论文介绍了 Chat2Query 系统,这是一个利用大型语言模型(LLM)来简化探索性数据分析(EDA)流程的创新系统,系统已经上线 TiDB Serverless,弹性和扩展性极强,适应工作负载变化。该论文强调了利用 LLM 来增强 EDA 流程的重要性,并解决了现有文本生成 SQL 技术的局限性。Chat2Query 提供了一个全面的解决方案,用于自动化数据分析任务,提升用户与数据库交互体验。
自主开源构建全球产学研生态
近年来,PingCAP 持续加强自主科研 + 高校科研的投入,从产品架构、存储内核、AI 及优化器、LLM 应用等方面进行技术预研,同时积极推进产品落地 PingCAP,从而奠定 TiDB 生态产品的技术前沿性。据统计,截止 2024 年 5 月,PingCAP 参与发表论文 15 篇,其中入选 ICDE/VLDB/SIGMOD 三大顶会论文 6 篇。PingCAP 致力于通过自主可控、全球合作和源头创新的理念,构建一个自主开源的全球产学研生态系统。
自主可控
PingCAP 入选首批工信部与教育部支持联合培养国家关键软件高层次人才计划,旨在探索关键软件产教融合育人模式,超常规加快培养一批急需高层次人才,以及探索关键软件联合技术攻关新模式。在该计划下 PingCAP 与华东师范大学达成联合博士培养合作。Chat2Query 论文第一作者正是联合培养博士中的一员,相信 PingCAP 和华东师范大学的联合博士培养计划将进一步增强 PingCAP 的理论研究能力和技术转换能力,PingCAP 也将持续为国家核心软件高层次人才计划助力赋能。PingCAP 和华中科技大学、武汉大学也有多篇合作论文发表在 ICDE、USENIX ATC、CLUSTER、TPDS 等国际顶级会议和期刊。PingCAP 将持续加强国内高校在科研和人才培养上的投入,借助本土人才技术优势,夯实技术领先,进一步打造自主可控的技术生态。
全球合作
立足全球业务,汇聚全球科研,解决全球问题,一直是 PingCAP 在科研合作坚持的理念。PingCAP 已经和皇家墨尔本理工大学 (RMIT) 、卡耐基梅隆大学 (CMU)、威斯康星大学麦迪逊分校 (Wisconsin-Madison) 等开展科研和人才培养相关合作。RMIT 合作的这篇论文是继《AutoDI: Towards an Automatic Plan Regression Analysis》入选 VLDB 2022 之后的另一个研究成果;同时 PingCAP 也是卡耐基梅隆大学 Carnegie Mellon University Database Group Industry Affiliate Program (CMU DB IAP) 成员,将围绕学术讨论和人才培养等领域同 CMU 展开合作;此外,PingCAP 成员多次受邀参加 Wisconsin-Madison CS764 课程授课、普渡大学的 CS590 课程授课。
源头创新
作为一个开源引领的创业公司,加强原创的知识产权保护将有利促进技术创新、提升核心竞争力,同时以更加开放的姿态拥抱开源,有助于社区健康发展。PingCAP 非常注重技术原创性和科研独立性的打造。
早在 2023 年 3 月的时候,PingCAP 就在 TiDB Cloud 上线了 Chat2Query 功能,Chat2Query 系统演示论文是 PingCAP 在 AI4DB 创新领域的一个阶段性成果,更是 PingCAP 与高校开放核心场景联合科研的最佳实践案例。
《TiDB: A Raft-based HTAP Database》论文是 PingCAP 团队原创论文的典型代表作,该论文介绍了 PingCAP 团队研发的 TiDB 数据库,它通过技术创新,实现了一种新型的数据库架构,能够同时满足高并发事务处理和实时分析的需求,作为业界第一篇 Real-time HTAP 分布式数据库工业实现的论文,它被收录于数据库领域顶级的学术会议 VLDB 2020,这不仅是对 TiDB 数据库阶段性成果的肯定,也代表了国内数据库技术的快速发展,也为后续的数据库研究和开发提供了启发和参考,有助于后续研究者在此基础上进行更深入的探索和优化。我们期待 PingCAP 在更多国际权威会议上展现更多原创成果。
未来,PingCAP 将继续携手国际学术界和工业界,不断推动数据库技术的创新与突破。我们期待PingCAP在国际舞台上展现更多原创成果,为全球数据库技术的进步贡献更多力量。随着开源文化的深入人心,PingCAP的故事也激励着更多企业和研究机构,共同为构建一个更加开放、协作、创新的全球技术社区而努力。