本文发表于《金融电子化》2021 年第 11 期,记者张丽霞采访了 PingCAP 创始人兼 CEO 刘奇,围绕 PingCAP 助力数据服务的发展与变革等话题进行深入探讨。
近年来,各金融机构逐渐由外部粗放式增长向内部精细化管理转型,尤其是互联网金融时代的到来,对业务响应能力与抗风险能力提出更高要求,进一步加快了数字化转型进程。而数据作为当下重要的生产要素,通过完整的数据服务,实时洞察用户潜在需求、掌握生产交易过程、更精准地匹配供需,为客户提供更加智能化的金融服务。平凯星辰(PingCAP)作为一家专注于分布式数据库基础软件领域开拓的科技企业,多年来全力打磨核心产品 TiDB 企业级开源分布式数据库,旨在帮助金融企业打通数据融合通道,协助建立云数据处理能力,支持与保障更加安全稳定可控的数据服务,取得了一定成绩。为此,本刊记者采访了 PingCAP 创始人兼 CEO 刘奇,围绕 PingCAP 助力数据服务的发展与变革等话题进行深入探讨。
记者:在数字化转型的背景趋势下,金融行业利用科技赋能实现运营转型与商业模式创新,这对金融行业的架构转型提出了更高要求。在此,想请您谈谈数据服务架构的发展趋势。
刘奇:我认为主要体现在三个方面。一是业务敏捷成了数字化的新常态;二是在目前开放银行或者 API 银行的背景下,金融服务无处不在,其中数据服务能够伸得有多远,数字化就能够走得有多靠前;三是数据消费的实时化成为刚需,消费者和一线业务人员都可以依靠数据做决策。
首先,业务敏捷成为数字化新常态,金融行业普遍需要“敏态架构”支持数字化业务的暴涨。我先举个例子,平安科技从 2018 年开始使用 TiDB。当时平安集团财险有“财神节”的促销活动。活动前期,数据库团队根据业务量、活动量的规模,进行 IT 资源的评估和规划,决定是否需要扩容。经初步评估,数据库团队认为没有一个单一的服务器能够承载他们当年的活动量。平安技术团队首先想到了云原生的分布式数据库——TiDB,进而与 PingCAP 取得联系。我们随即成立联合攻关小组,经过短短 20 多天的时间,搭建了一个 20 个节点的生产集群,顺利地保障了平安集团 2018 年 1 月 8 日的“财神节”活动。
该项目的核心就在于 TiDB 分布式数据库能够通过自动扩容和缩容来满足业务的敏捷性要求。尤其对于一项新业务,刚开始并不能确定业务的最终用户量,当运行一段时间后,发现需求火爆,就要快速满足系统自动扩容的业务需求。同时,也可能会出现另一种情况,即用户的实际需求低于预期,需要原系统规划容量可以实现自动缩容。本质上而言,数据库弹性伸缩的能力就是要适配业务的敏捷性,这是对数据库的常态化要求。
其次,在开放银行或者 API 银行的背景下,无处不在的金融需要无处不在的数据服务——即金融数据服务的“风筝模型”。风筝本身能飞多高,取决于牵着它的线有多长。假设开放银行本身的业务能力、服务能力是风筝,它能飞多远,就取决于中间牵着风筝的数据平台。平台需要根据业务风险的大小,决定如何收线与放线。
传统信息化的使命就是降本增效,数字化不仅降本增效,还创造了一个全新的业务舞台,带来新的用户体验。以银行为例,以往用户办理各项业务都需要去银行网点,各类服务之间有着清晰的边界。随着数字化转型的推进,越来越多的业务在各类 APP 线上办理,银行逐步将金融服务嵌入到衣、食、住、行等生活场景中,成为面向多元化场景的开放银行。
基于对相关业务数据的分析,金融机构会进一步决策后续为客户提供哪些服务支持。如果把开放银行多元化的场景比作放风筝,金融服务渗透到生活场景的方方面面,就相当于同时起飞了多个场景风筝,“数据因子”就是风筝的引线,实时的数据服务就成为了多个风筝协同管控的必备平台。
再次,用户使用数据进入“任意门”时代——即数据消费的实时化成为刚需。在数字化转型过程中,金融企业对“海量、实时、在线”这几个基本需求变得更加迫切,放大到任意谁、任意时间、任意地点,对于任意形态的数据都可能产生实时消费的需求。通过获取用户的各种行为,金融交易、征信、风控、风险偏好等数据可以识别出客户的风险特征和投资偏好,进而推荐合适的产品。通过场景服务的不断迭代创新,下沉到与之相匹配的高频场景,在高频场景中植入金融服务,触达更多用户。
金融企业全场景的数字化呈现出数据服务架构变革的两大方向,一是需求侧的数据服务消费化,数据服务要能够支持任何地点的任何人 ;二是供给侧的统一实时数据平台,可以在任意时间,以任意形式提供数据服务。数据服务消费化的趋势就是要为增强型消费者和企业内部每一个员工提供一个访问数据的“任意门”,让他们可以实时获得个性化的数据服务。数字化时代的刚需将催生了统一的实时数据平台,以完成“实时汇聚,实时反馈,实时洞察,实时决策”。
记者:在此趋势下,对于金融行业正在着力开展的数据服务架构转型工作,PingCAP 可以提供哪些方面的实质性帮助?
刘奇:金融行业的数据服务架构转型工作,最核心的变化是走向“简化与融合”。在 Hadoop 的模式日落西山后,我们听到很多“一体化”的名词,比如“湖仓一体”“流批一体”,这些都代表用户追求“简化、融合”的技术栈方面的需求。从 PingCAP 的角度,则希望通过“一栈式的数据服务平台”大幅压缩金融技术栈的复杂性,提高整个系统的实时性。
因为技术栈越复杂越长,实时性就丧失的越多,一个数据经过多个系统流转,实时性就无法得到保障。而机构的竞争能力与实时性强相关,所以我们期望简化数据服务的技术栈。用户只需要掌握最基础的语言“SQL”能力和“数据分析”能力就可以驱动业务决策。
这对数据服务平台提出三个要求:基于一栈式的数据服务平台,TiDB 提供 OLTP 规模化能力——能够自动适配业务需求,保障关键业务的联机交易,提升业务敏捷性;Real-Time HTAP(实时分析)能力——混合事务交易和实时分析能力,可以对业务系统的交易提供支撑并获得实时洞察的能力;此外是以“用”为核的特点。
对于联机交易高扩展、高可靠的数据库 (OLTP 规模化),在联机交易场景中,对数据库的敏捷性、伸缩能力、安全可控、高度迭代能力都提出了新要求,需要高度的弹性扩展能力、高可靠性、高安全性保障,并提供可持续发展的云原生演进能力。
对于 Real-time HTAP 能力的体现,最直观的是原来需要在后台数据平台端通过数据迁移与同步才能完成的任务,现在一部分可以转移到业务系统侧实时完成,成为业务系统的内生功能,实现业务闭环处理。
对于以“用”为核的实时数据服务平台(Real-Time Data Service),目前已经越来越多地面向企业数据消费者,在现有数据平台之上建立以“用”为核,以“管”为基的实时数据服务平台,成为企业规划与实施的重点。该平台可以让企业各类群体将数据当作超市中的商品,自由选择与消费,让整个企业享受到数据实时变现的红利。比如很多已经用 Hadoop 作为数据仓库的用户,采用 TiDB 作为实时数据中台,就可以汇聚来自数据仓库和在线业务系统的数据,形成统一数据源的数据分析服务,为业务决策者提供类似 360 度用户视图等服务。
记者:目前数据库领域厂商多数都在做 HTAP,那么 TiDB 在此方面有什么差异化优势?
刘奇:我们看到越来越多的厂商都能够跟随全球技术风向,我觉得这是件好事。回到技术层面,TiDB HTAP 差异化优势体现在“四性合一”:一致性、实时性、对等性、开放性。
一致性:数据副本通过 Multi-Raft 协议同步事务日志,多数派写入成功事务才能提交,确保数据强一致性,且少数副本发生故障时不影响数据的可用性。通过 Raft 协议把数据从行存同步到列存,在查询视角下该协议保证了数据的到达是最新且一致的。
实时性:TiDB 支持实时的数据分析,可直接针对最新数据进行分析,提供最实时的决策支持。实时更新列存 TiFlash, 解决了传统列存系统无法进行实时更新的问题。无论分析引擎负载高低或稳定与否,都不会影响正常交易链路的执行。
对等性:TiDB HTAP 提供的 OLTP 与 OLAP 能力在架构设计与发展潜力上是完全对等的,对等性也可以理解为在实时性与一致性前提下 OLTP 侧和 OLAP 侧的业务是完全隔离的,互不干扰和影响。对等性是业界用来判别“是否真正的 HTAP 系统”的重要参考指标。
开放性:TiDB 拥有高度开放的技术生态,在数据库领域高度兼容 MySQL 协议和生态,通过周边工具生态实现与 Oracle、DB2、SQL Server 等数据库的打通。在大数据领域 TiDB 实现了与 Hadoop、Spark、Flink、Kafka、Pulsar 等大数据技术栈的融合;在基础设施领域 TiDB 积极拥抱云计算和云原生的技术生态,与 AWS、Google Cloud、京东云、移动云等企业建立广泛的合作体系。
目前主流用户的数据库基本都采用了 TiDB,国内越来越多的金融机构也在使用。比如光大银行采用 Chaos Mesh® 构建混沌实验平台,对 EverDB 进行系统的自动化流程测试,减少数据库版本的频繁升级带来的不确定性和风险性,提升架构转型过程中各类复杂系统的可靠性。
记者:近日人民银行、中央网信办等部门联合发布《关于规范金融企业开源技术应用与发展的意见》,PingCAP 很早就开展了开源社区成熟度与开源社区度量体系等方面的研究。请您分享一下在开源社区运营和治理方面的实践经验。
刘奇:我们做了多年的开源,最早的时候还是有些孤单,现在很高兴看到大家都陆续开始开源了。从 2020 年华为的 GaussDB,之后腾讯数据库开源,到 2021年阿里云的 PolarDB 开源,再到 Oceanbase 开源,大家基本上认同了这个趋势。
上述《意见》鼓励金融企业使用开源技术,从指引金融企业用好开源技术的角度释放了一个非常积极的信号。这对以开源为战略的 PingCAP 更是极大的鼓励与认可。
从我们自己走过的路来看,我觉得关键是要把开源作为长期战略,而不是市场活动,更不要当成一个任务,甚至一个KPI。我用几个关键词来总结 PingCAP 的开源经验:即信仰、连接、人才。
最初因为几个创始人本身对开源的信仰,所以创立了公司。信仰本身也是吸引员工的关键,最终凝聚了对开源有信仰的群体,更进一步强化了我们对开源的坚持。其二,对于一个服务或者软件,我们需要与用户建立非常深刻的连接。建立连接的本质是要能够满足用户未来对于场景需求的理解。开源天然具有依赖感和安全感,因为能够透明地看到所有的代码时,安全感和信任感便油然而生。其三,人才连接,开源社区运营的主要目的,亦在于此。开源社区的商业化不仅是找到一个转化途径,更在于累积足够多的人才。6 年前 PingCAP 第一次 Meetup 只有几个人,到今年的 Devcon 有 1500 多人到现场,这就是开源社区在过程中建立的放大模型,需要积累“百、千、万”三层人才。
这里有两个数字:PingCAP 每年的代码更新率约为 40%,而这 40% 的代码更新中,又有 40% 是由外部参与者贡献的。正如“飞轮效应”,我们的销售、锻造师、技术支持人员及代码贡献者都是开源项目的用户。用户数量自然会在这个飞轮上如雪球般越滚越大。
记者:作为一家开源数据库企业,从数据助力行业客户数字化转型的视角出发,请您谈谈 PingCAP 的发展愿景。
刘奇:我简单总结一下数字化与信息化的最大异同点:相同之处是都能完成降本增效这一基础任务;数字化比信息化更能带来 3 个方面的特征,一是创造一个全新的数字化业务舞台,二是通过数据赋能让一线人员甚至消费者成为决策者,三是让企业面对不确定环境时拥有敏捷适应能力。
用一个简化的框架来看,数字化的技术架构本身可分三层架构:端、数、云。“云”上面提供几乎无限的算力、存储和网络资源 ;而“数”即数据服务架构,需要提供实时数据服务,比如 HTAP 能力,这也是未来我们要去规划和加强的能力;在“云”和“数”的基础之上是“端”,包含了端上的场景创新、体验创新、业务创新等。
PingCAP 从分布式数据库走到现在,已经支撑了云原生。未来我们还将走向一个新的服务架构,这个架构已不限于分布式数据库的范畴,对于大多数数字化企业,用这样的数据服务整体架构,基本上可以解决其在数据化服务层面所面临的所有问题。
未来的数据服务层已经模糊了数据库、大数据之间的概念,这是未来几年的状态。在此状态下,企业需要向下支持云原生,把云用好,向上支持各种各样的业务场景。这便是数字化的三层架构——“云”“数”“端”,我们正在“数”这一层谱写未来使命。