金融行业数字化转型不断深化
正如工业革命推进了社会大发展,数字化转型将是当今世界经济发展的大趋势。2019 年 8 月,中国人民银行发布实施了《金融科技( FinTech )发展规划( 2019-2021 年)》,明确我国金融科技发展的指导思想、基本原则、发展目标、重点任务和保障措施,标志着金融行业的数字化转型进入了新的历史发展阶段。
目前,⾦融⾏业积极拥抱变化,其信息系统架构朝着数字化方向演进发展,金融服务也因科技⽽变得⽆时不在、⽆处不在。提供基于实时场景的嵌⼊式金融服务,提供基于数据智能营销的优质客户体验,推⾏数据分享和开放,构建基于数字化转型的组织架构,成为数字时代金融科技的鲜明特征。
金融行业数字化转型剖析
场景服务创新
随着金融行业数字化进程加快,金融服务也逐渐向嵌入式的“场景化”方向转型。面向社交、电商、大宗商品交易、餐饮、出行、供应链等 B 端和 C 端市场,“场景+金融”的转型理念需更加深入理解用户心理,更加敏锐地识别、感知、引导、创新和满足客户需求。提供无处不在的金融服务,提升用户体验,场景服务敏捷创新成为金融数字化转型的核心。金融机构需要通过获取用户各类行为、金融交易、征信、风险偏好等数据精准识别出其风险特征和投资偏好,进而推荐合适的金融产品,并对营销线索的转化周期实时跟踪监测,根据用户需求的变化实时调整,提升转化效率;通过场景服务的不断迭代创新,下沉到与之相匹配的高频场景,在高频场景中植入金融场景,触达更多用户。
数据价值创新
场景服务的创新离不开数据价值的获取,数据价值创新旨在通过大数据基础设施建设、数据管理与数据建模,通过加工提炼形成数据资产并以数据服务的形态发布,实现数字化运营和精准营销。常⻅的解决⽅案通过⼤数据、机器学习、⼈脸识别、声纹识别等技术对海量数据进⾏采集、计算、加⼯、存储、学习,实现结构化及⾮结构化全域数据采集与引⼊、标准化的数据开发⼯⼚和数据模型、连接与深度萃取数据价值,最终形成数据资产以统⼀数据 API 形式提供智能化数据应⽤能⼒。通过数据价值创新,金融行业可以借此实现可弹性伸缩扩展的数据基础架构、实现业务数据复⽤与共享,数据模型的抽象与建立,消除数据孤岛,快速响应业务需求,最终形成以客户为核⼼,以数据为驱动,以科技为引领,科技赋能业务,构建数字金融体系,更好的匹配数字化经济的特征,完成数字化转型。
当前系统建设痛点
面对场景服务和数据价值的创新需求,目前金融行业大数据技术的建设基础主要是以 Hadoop 技术生态和分析型数据为主的离线分析技术,这些技术及平台提供的分析能力往往基于传统数仓 ETL 的建设,是以日终批量的形式将各个业务系统的源数据通过 ETL 抽取到 Hadoop 集群,这类平台的数据更新往往借助分区或全量使用当天数据覆盖,因此无法进行实时数据采集,存在无法利用最新鲜数据萃取加工形成数据资产的痛点,以下是金融行业传统大数据体系架构:
从上面的图中发现,目前金融行业数据价值的获取严重依赖于 Hadoop 生态的技术架构,例如每日日终通过 ETL 工具或数据开发工厂提供的数据同步服务将历史数据导入到数据湖系统,通过离线数仓模型和数据分析形成需要的数据资产,对于一些基于大数据实时数据分析的场景,数据生产方将源数据生成并投递到消息队列服务,数仓系统消费消息队列的数据,完成后续的数据加工并输出到 HBase 等列存数据库,整个方案链路复杂且存在数据延迟,并且传统的 NoSQL 数据库技术也不能支持高并发的查询,难以满足未来数字金融海量实时数据分析、深度萃取数据价值的业务发展需求。
通过调研我们发现未来金融数字化转型的发展需要实时汇集多个系统多个数据库的海量数据,对数据进行统一过滤清洗,选择适合的数据模型进行计算分析加工,快速形成数据资产,典型的场景包括金融业务实时风险监测分析、智能投顾、金融实时风控、用户行为分析等实时数据分析场景。此类金融场景数据量庞大,通常需要在线同时处理 TB 级别的数据,传统的 Hadoop 生态技术栈存在技术复杂、维护成本高、SQL 执行慢等问题,离线数据分析的能力也无法支撑金融行业实时风控、智能营销、智能投顾、实时产品分析报表等数字化转型场景需求。
TiDB HTAP 助力金融行业数字化转型
TiDB HTAP 架构作为新一代行列混合存储引擎分布式数据库,不但可以执行一些轻量级的数据分析类业务,还可以与传统大数据生态技术栈例如 Flink、Kafka 等技术相结合,不论作为单独的实时数据分析处理引擎,还是与传统大数据技术栈结合,都可以显著提升数据价值获取的能力,帮助金融机构搭建自有的场景金融、实时风控、智能营销体系,做好风险把控,将核心的业务及数据能力下沉到场景,展现金融生态的多样化,助力金融行业数字化转型。下⾯我们就结合具体的场景案例,分析 TiDB HTAP 数据库在具体金融数字化转型场景下的解决方案。
场景1:金融实时数据风控
金融实时数据风控以金融风控数据变量为中心,通过整合决策引擎、征信服务、额度系统、反欺诈等业务系统提供的服务能力进行编排,提供企业级的统一风控入口。随着数字金融的发展,业务场景对实时风控的场景能力进一步提升,网络贷款、支付、券商投资等核心业务要求在秒级完成整个风控流程,同时要求关键业务数据持久化且具备实时数据分析能力,对交易流水结果、征信、反欺诈、决策分析等数据实时或批量进行处理,按照业务定义维度、计算指标生成面向风控场景的数据集市,同时在大屏按照产品、渠道、地区等维度对实时数据进行统计分析和展现,是典型的 OLTP + OLAP 场景。
利用传统大数据的解决方案,需要对风控系统的源表进行 ETL 抽取,然后通过离线数仓的解决方案进行处理,这类方案的实时性及复杂度均不能很好的支撑业务需求。通过 TiDB HTAP 架构能力,利用:
- 基于行存的 OLTP 架构,可以快速高效的将风控业务源数据进行持久化,并支持高并发的访问;
- 基于列存的 OLAP 架构提供的高性能 MPP 框架以及可更新的列存引擎,可以在线通过分析任务按照业务维度对源数据进行分析加工形成数据资产保存至列存引擎中,以数据 API 的形式发布,提供给业务系统高频实时调用;
- 基于优化器自动决策,无论是走行存索引选择,还是列存或 MPP 计算模式,都可以由优化器根据 SQL 执行语句统计信息自动做出选择,大大简化系统开发架构的复杂度。
通过实时风控的场景,选择 “TiKV + TiFlash” 的 TiDB HTAP 架构,其中 TiKV 用于快速沉淀风控交易、决策过程、征信结果等风控业务数据并保障高可用,TiFlash 基于扩展 Raft 共识算法快速同步 TiKV 的数据,基于列存引擎对源数据进行分析查询加工,生成可用于金融风控业务的集市数据或可视化展现 BI 数据,极大提升了业务运行效率。
场景2:业务实时监测分析
金融业务实时监测分析系统通过实时汇聚支付、风险、贷款、账务核心、柜面与互联网运营等金融行业核心高频海量数据,通过数据模型对关键系统交易指标进行实时监测分析,关键业务处理逻辑如下:
- 建立流式大数据实时处理通道;
- 业务实时监测结果展现,例如业务成功交易量、成功失败率、支付通道成功率、平均耗时、失败率及失败原因汇总,进行多维度可视化报表展现;
- 对特定交易设置预警阀值以及配置预警规则,出现问题及时输出详细信息。
基于 TiDB HTAP 实时数据处理技术架构的能力构建针对金融行业业务实时监测分析系统的解决方案,其中:
- TiCDC 是 TiDB 的增量数据同步工具,可以将多源数据例如支付、核心运营系统源数据库的变更日志输出 binlog 到 kafka 集群,建立大数据实时处理通道,实现多源数据快速接入;
- Flink 消费 Kafka 日志对源数据进行过滤清洗加工,根据各类业务指标,通过数据模型加工成模型宽表;
- Flink 将加工而成的宽表数据写入到 TiFlash 中,用于数据分析服务处理;
- 数据服务层将业务逻辑封装成标准的数据服务 API,直接查询 TiDB HTAP 数据用于各类消费系统进行消费;
- 对于中间态交易,日终批量对各类指标基于历史数据进行矫正;
- 监控报表等系统可直接利用 TiFlash 引擎进行高效查询分析,对交易成功失败率、交易耗时、失败原因汇总等信息进行多维度多视图展现。
通过 TiDB HTAP 架构实现的业务实时监测分析系统,可以根据实时在线交易数据动态分析各类业务指标,根据日终批量对部分历史数据进行校对,极大提升日常核心业务的风险监测效率,满足了智能化管理的需求。
场景3:智能投顾
智能投顾作为证券公司为客户提供的财富管理解决方案,可根据投资者的风险偏好、收益预期等信息,采用资本资产定价模型、现代化投资组合理论等核心算法模型,为用户提供匹配的投资组合优化建议,完成资产的配置和动态调整,是财富管理转型的重要实践。常用的算法模型使用 T-1 或更早的数据,对于投资市场的分析能力存在滞后性。
采用 TiDB HTAP 方案,通过 CDC 或 kafka + Flink 等流式数据采集技术,实时感知外部数据源变化并汇聚数据至 TiDB,使得智能投顾系统可及时获取、分析并感知客户行为和市场波动信息,在系统内部完成客户财富资产方案管理,对资产配置再平衡提供建议。同时,使用 TiCDC + kafka + Flink 工具,实时采集 TiDB 的变化数据,可为下游应用提供实时、 高吞吐、稳定的数据订阅服务,将智能投顾方案建议更及时的触达客户终端,联动交易、CRM 等系统,完成客户服务完整链路触达,也可与多种异构生态对接,满足各类相关等数据应用与分析需求。提升智能投顾实时数据处理能力,能够加强客户在投前、投中阶段提供更加及时的资产配置服务,提升客户体验。在投前阶段,从客户认知和跟踪服务的角度,智能投顾可以体系且持续性的纳入、分析行为数据、交易数据等用户信息,并通过 TiFlash 加速用户信息等归纳、整理并更新算法,做到更加准确及时的 KYC( Know your customer,即充分了解你的客户)。在投中阶段,针对持有产品的市场解读,在市场波动时,做出适当的交易建议提醒,稳定投资者情绪,降低交易频率,避免用户追涨杀跌、实现合理的长期持有。
总结
TiDB 作为一款实时 HTAP 数据库,针对金融数字化转型场景和数据创新的需求,面对传统大数据系统建设痛点,可以加速金融行业数字化转型。它不但能良好支持海量实时数据落地存储,并且可以提供一体化的分析能力,而行列混合的引擎设计也使得金融场景或数据服务能够支撑大规模的交互式查询。金融行业不但可以单独使用 TiDB HTAP 数据库构建轻量级的数据中台实时分析业务,也可以结合大数据传统生态技术一起构建离线 + 实时的全新大数据处理架构。