在 9 月 22 日举办的 PingCAP 用户峰会上,中国赛宝实验室李冬(博士)分享了主题为「中国数据库产业发展研究」的议题。他指出,当前数据库技术融合发展趋势明显,云原生和多云的需求进一步增强,数据库与大数据正在深度融合应用,存算分离成为发展的主流,HTAP 也成为新的关注方向。PingCAP 通过分布式和云等自主创新技术,实现了架构式的跃迁,是我国数据库产业值得借鉴和思考的突围途径。
以下为分享实录。
各位在场的嘉宾大家好,我是中国赛宝实验室的李冬。感谢大会的邀请,我很荣幸来到这里与大家分享赛宝实验室对中国数据库产业发展的一些研究心得。
数据库作为 IT 行业最重要的核心产品之一,近年来正发生着巨大的变革。过去十年,从技术到市场,从产品到业务,数据库产品和产业发生着重大的变化。我们认为来自各类客户的业务需求升级拉动了数据库产品的功能扩展和能力升级,进而推动了整个数据库产业的变革。
众所周知,用户的抽象需求包括:第一是海量数据的存储,预计到 2025 年,全球的数据量将达到 175 ZB,中国在 2025 年将达到 48.6 ZB ,成为全球第一;第二是海量并发的访问,从企业内部的数百、数千个并发,到互联网模式下的百万级到亿万级的并发的支持能力,都是数据库需要去支持的;第三个方面是灵活部署的需求,为了提升数据库的高可用,各行业都在加速信息化基础设施的分布式建设;第四个方面是弹性伸缩的需求,新的应用场景需要数据库具备弹性伸缩的能力;此外,还有一些其他的新需求,过去 20 年,数据的生产主体经历了从企业到个人的转变,个人电脑、手机移动应用成为数据创造的动力源,同时带来了端边云协同、AI 融合、软硬结合、数据安全、隐私保护等带来了一系列的挑战,需求的升级对数据库产业带来的影响是确实可见的。
从全球数据库产业的变化来看全球数据库市场的格局发生了巨大的变化。2017 年来,Oracle 的市场占有率从 36% 下滑到了 20% ,市场空间基本上被云数据库取代,Oracle 一枝独大的格局已经发生了改变。基于开源模式的数据库的市占率已经超越了闭源数据库产品。根据 DB-Engines 的数据显示:截止到 2022 年 8 月,全球 383 款数据库中,开源数据库占比 52.2%,超过了商业数据库,远高于 2013 年的 35.5%;在最受欢迎的排名前十的数据库中,开源数据库占据了六席,在中国的情况也非常相似。根据墨天轮的数据显示,截止到今年 8 月份,中国数据库流行度排行榜前 4 位的数据库中有 3 款是开源数据库,TiDB 、openGauss 都是开源数据库,第四位的 OceanBase 也是开源不久。
行业用户的选择也更加多样化,阿里、亚马逊等互联网企业还有一些金融机构,他们从传统数据库转向了云数据库。数据库产品的品类丰富,创新活跃,呈现百花齐放的态势。这主要表现在数据模型的关系型和非关系型在不断地发生变化,数据架构从单机集中式到分布式演进,部署形态从本地到云部署的创新,还有多模态数据库创新也非常活跃。数据库技术融合发展关键趋势更加明显,云原生和多云的需求进一步增强,数据库与大数据的深度融合应用,以及存算分离也成为发展的主流,HTAP 数据库成为新的关注方向。
通过对全球数据库产业发展情况的分析,我们认为传统数据库是无法满足当前数字化需求的,各行业纷纷探索跨越型的解决方案。Gartner 在其发布的《原生分布式数据库引领数据管理技术发展趋势》白皮书中指出,传统的数据库技术难以满足存储与计算海量数据的要求,数字化浪潮带来更多业务种类及更长服务时间,都对数据库系统提出更严峻的挑战。传统数据库处理能力与用户实际需求的剪刀差在不断拉大。
以金融行业为例,大数据处理分析的需求交织着普惠金融、数字金融进程的快速推进,数据能力已经成为金融企业在新时代业务能力的重要抓手。与此同时,移动互联网和电子支付业务的蓬勃发展,给金融行业的典型应用场景,如核心账户与账务交易、在线支付、移动支付交易业务、实时交易监控与指标分析等业务都提出了新的需求。金融行业的数据急剧增长态势对数据的存储和管理也提出了更高的要求。金融行业对业务连续性能力更加重视,需要面临高并发业务和高用户量带来的系统压力,对移动应用的响应速度要求更快,从技术来源层面也面临着新的选择。这些需求叠加在一起,传统以大型机、小型机加上 Oracle/DB2 为主构建的集中式金融数据库系统显得愈发力不从心:管理弹性不足、处理性能跟不上、安全保障能力有待提升、支持处理的数据类型单一、开发运维能力差、难以全面掌控产品核心技术等矛盾愈发突出。
各行业都在探索满足行业特征的新型数据库,从近年来数据库的发展趋势看到,寻求更好的根本性的解决方案已经成为了业界的共识。云原生、分布式数据库以及诸多特性,成为互联网与金融用户成功解决业务场景需求,并正在引领数据库管理技术的发展趋势。这种架构的跃迁不是数据库之间的恶性竞争,而是源自于用户对数据量爆发增长、对数据立体化分析、实现数据资产积累与发挥数据资产效能的需求本身。开源作为基础软件最主流的生产协作模式,聚合了全球开发者的创新能力,并通过持续流动的社区形成产品的迭代创新,基于网络生态的大规模协作以提高迭代效率。同时,开源社区最接近产品的实际需求,能够更好地吸纳最终用户、收集反馈,增强通用性和可用性。
中国数据库经过 20 多年的发展,目前呈现出了百花齐放的局面。根据墨天轮 2022 年 8 月的中国数据库流行度排行,共有 228 款数据库参与其中,排名前九名的分别是三款开源数据库、三款闭源数据库和三款云数据库。在 228 款的数据库里面,关系型数据库有 150 款,分布式数据库有 113 款,分布数据库已经超越了集中数据库成为中国数据库的标配。
伴随着我国科技的快速发展以及产业数字化转型的快速推进,各行各业的数据使用场景也呈现了多元化趋势,越来越多的业务数据被企业存储、分析和利用。各行业的核心业务数据体现出明显的差异化,也对数据库提出了不同的需求:
- 互联网行业对数据库的业务需求复杂性高,主要业务包括在线商城业务、订单系统、合同管理系统、实时风控系统、后台数据管理系统、智能推荐系统、VIP 会员系统、小程序业务系统等,其数据特点是海量数据存储、高并发读写需求、高峰业务弹性需求大。且互联网企业对成本控制需求高,但面临 IT 监管审查一般要求不高。
- 政企领域对数据库的业务需求复杂性不高,业务多为事务性分析,对数据关联分析能力与可用性需求高。一般对 IT 环境安全性要求高,但对成本不敏感。
- 金融业务的业务数据爆发式增长、反洗钱等新型业务分析需求不断提高,对信息系统高并发请求、海量数据的高性能存取及多维数据的关联分析提出了极高的要求。同时金融业务的特点也要求数据库具有高安全、高可靠、高性能、高扩展的能力。金融用户面对合规监管要求高,对成本敏感度不高。
- 工业互联网领域,在产业数字化转型过程中,从工业互联网对数据库的需求看,数据库应满足工业数据海量增长、高并发、低时延、高可靠与实时分析的需求。
按照我们的科学分类法,赛宝实验室为中国数据库绘制了一个蓝图,将 100 多款中国数据库品牌容纳进来,我们也期望各厂商能够通过良性的、高质量竞争,共同推动中国数据库无死角、高质量的发展,为我国基础软件领域的自立自强作出贡献。
数字化转型的不断深入推动了数据库产业的蓬勃发展,据初步统计,目前中国已经有数据库厂商近 200 家,随着这个领域的创新企业的不断涌现,产业格局正在向核心技术和关键场景纵深突破。这张表展示了国产数据库采用了多种的实现途径,像 TiDB、openGauss、TD-Engines 等扎根国内的根社区和根生态正在形成,引领和超越的破局产品处于酝酿和爆发的前夜。
虽然当前中国数据库产业是百花齐放、百家争鸣的局面,但是无论是产业规模还是产业能力,跟国外的主流公司和产品还有不小的差距。在政策体系,标准统一、产品能力提升、关键技术攻关、服务体系建立、企业管理规范等方面的问题还亟待解决。数据库产业中的战略人才、生态、知识产权保护与竞争等问题依然严峻。
我们看到中国数据库虽然在过去 20 年取得了很大的发展,但是通过我们的产品测评和用户需求的洞察,我们看到中国数据库同样还存在很多的挑战,在这个挑战中,我觉得最关键的是生态和人才方面的挑战。
在商业数据库产品层面,像甲骨文公司还有一些其他的数据库公司,他们有很深的护城河,构筑了数据库产品的壁垒,主要是得益于生态。今天中国数据库最迫切的是加快体系化的生态建设,我们的服务体系、知识体系、社区体系都需要建设,而且迫在眉睫。我们还应该看到中国数据库研发的人才也十分稀缺,据说是 Oracle 有 4000 多个内核研发人员,而我们中国数据库厂商可能合计加起来可能也只有这么多研发,那么这就对我们的规模、速度都提出了挑战。从这个角度看,中国数据库的发展趋势之一应当是开源,只有通过开源才能快速的集聚区人员团队上的优势。
此外,非常严峻的挑战还包括降低产品的同质化竞争,提高知识产权的意识等等方面。结合前述的各种情况,赛宝实验室认为中国数据库产业的发展途径可以从以下四个方面进行探索:
第一,全面深刻理解数据库的分类体系和发展格局,探索多元化的发展途径。在当前的情况下,海量高并发、异构、多模、混合负载、智能分析等需求在不断地驱动数据库的发展。云与云原生,分布式、AI &DB 等又反过来推动数据库的技术转型。数据库的内涵与外延明显的正在发生不断的丰富和变革,重新定义数据库的概念,重新归纳数据库的分类体系,重新划分数据库的赛道格局,探索多元化的发展路径是一件非常重要的事情。
第二,细分赛道差异竞争,引领新赛道创新格局。那么在新的细分的数据库赛道,我国的数据场景丰富,数据库产品起步早,应用广,具备国际领先性。在关系型数据库之外,应加强对于 NoSQL 领域数据库的关注,鼓励差异化竞争,通过在时序、图、文档等品类方向上的投入和引导,实现在新方向上的创新引领产业格局。
第三,重视场景驱动的技术升级,通过架构跃迁实现变道超车。可以预见的是在不远的未来,云数据库取代传统数据库的趋势是不可逆转的,这种趋势的变化类似于互联网从电商开始对传统行业的渗透,也正如电动车吞噬燃油车的市场。这说明像 PingCAP 这类数据库企业,通过分布式和云等自主创新的技术实现架构式跃迁的方式,是中国数据库产业值得借鉴和思考的突围途径。
第四,打造繁荣的开源生态,借助开源实现技术溢出与供需结合。由于数据库技术的门槛高,发展难度也比较大,需要充分借力开源实现弯道超车。通过开源吸纳更多的数据库厂商、用户单位和开发者,汇聚全产业力量,打造有影响力的开源社区。发挥头部企业技术溢出作用,鼓励头部企业自主开源,开放软件源代码和持续贡献,才能推动中国数据库实现跨越式发展,保持自主开源的创新动力源源不断。
以上就是我今天报告的全部内容,更详细的信息可以参考赛宝实验室即将发布的《中国数据库产业发展研究报告》,谢谢大家。