麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践
1291
2023-06-05
本文讲述了中国金融业数据仓库有哪些重要趋势?金融行业数据仓库的建设思路
数字经济时代,什么才是金融机构的核心竞争力?笔者访谈了交通银行软件开发中心总经理刘雷。刘雷指出:“数据和数据能力是金融机构发展的核心竞争力”。
当下,金融机构的数字化转型正迈入纵深阶段,使得两大核心诉求更加清晰:其一、通过数字化转型重塑核心竞争力,让营销、风控、管理等传统业务焕发生机,走向高效化;其二、利用数字化技术拓展新的业务领域,在商业模式上实现创新与突破。
无一例外,这两大核心诉求的基础都是数据。随着各大金融机构数据量持续爆炸性增长,新业务场景的井喷以及数据要素化的提速,也让金融行业数据分析平台核心--数据仓库逐步融入各种核心业务之中,其价值与作用愈发突出。
刘雷提到:“数据作为数字经济时代新的生产要素,要像土地、人力、资本、技术等其他要素那样,不断流动、交换和共享,进而推动经济社会发展。在这个过程中,一方面,要通过数据标准的制定,加强数据治理和数据管理能力,提高数据质量,提升数据生产服务能力;另一方面,利用多方安全计算、人工智能、大数据等技术建立跨平台、跨企业、跨领域的数据仓库体系,按照数据不出域、可触达的要求,实现数据的交换和共享。”
那么,中国金融业的数据仓库应用现状如何?中国金融机构在数据仓库上都遇到哪些新挑战?又会有哪些重要的新趋势?
近日,由金融信息化研究所联合交通银行在内的多家金融机构及***正式发布了《金融数据仓库发展报告(白皮书)》(以下简称:白皮书),从政策、全球、技术、历史五个维度综合分析我国金融数据库技术发展现状和问题,并提出了金融数据仓库七大关键技术和十大发展趋势,对于金融机构未来建设、升级优化数据仓库极具参考价值。
数据仓库应用现状如何
在众多行业中,金融行业是最早部署数据仓库的行业之一。
早在信息化时代,数据仓库在各大金融机构的业务中就发挥着关键作用;进入到数字化时代,数据驱动成为金融机构的转型目标,业务运营与创新均与数据息息相关。数据犹如金融机构的血液,流动到每个组织和业务之中,为其带来“养分”,数据仓库承载着数据的存储与分析,自然就成为金融机构数字化转型建设的刚需。
白皮书调研数据验证了这一现状:当前,银行、证券、保险等不同领域的金融机构普遍建设了数据仓库。其中,银行业建设数据仓库占比最高,除了区域性城商行尚有部分机构未建设之外,国有大行、股份制银行等均建设了数据仓库;而证券业和保险业建设数据仓库占比均接近90%。
具体来看,我国数据仓库产品在金融机构的占比正不断提升,尤其是在银行业的占比较高。白皮书的数据显示,国有大行基本都在使用我国数据仓库产品或采取自研数据仓库模式,占比高到83.33%;而股份制银行采用我国数据仓库产品的占比也高达66.67%。
另外一大现象是:金融机构的数据仓库数据规模差异较大。白皮书数据显示,拥有PB级规模数据仓库的金融机构占比达到15.96%,典型像国有大行和股份制银行等,近年来由于业务规模不断扩大,数据仓库的数据规模来也水涨船高;而数据量50TB以下的金融机构占比大约45.75%,像农商行、证券业、保险业等基本处于TB级别。
在投入方面,有86.75%的金融机构的数据仓库投入在所有数据库投入中的占比小于50%。从侧面反应出,很多金融机构的数据仓库建设未来依然有较大提升空间。
白皮书还对不同类型金融机构当前使用数据仓库痛点和使用诉求进行了调研。在痛点方面,国有大行因其海量数据,带来容量瓶颈问题;相对国有大行,其他金融机构数据治理体系还不完善,面临数据质量等系列问题。在使用诉求方面,不同类型金融机构也不尽相同,主要集中在T+0分析、数智融合、湖仓一体、存算分离以及数据共享等方面。
这些关键技术和趋势不容小觑
“未来的金融服务无处不在,就是不在银行网点。”--《Bank 4.0》一书对未来金融做出大胆预测。
真实情况恰如预测那样。如今,移动支付、电子货币、互联网保险、大数据征信、智能投顾、智能客服、云柜台等新金融业务正大量涌现,对于金融机构传统的网点、渠道、产品、流程产生了极大的冲击和改变,并且加速向金融业务中后端和全链条渗透,引发金融行业全业态变革。
交通银行软件开发中心总经理刘雷表示:“数据驱动如今是金融业重点关注方向。对于金融业而言,以数据为核心意味着:
一、数据处理要快,实时计算的场景越来越多,大数据要求更高的算力;
二、数据处理范围要广,除了金融机构内部结构化数据之外,需要整合更多复杂的数据来源,对于数据仓库等技术能力要求更高;
三、数据需要共享,既打破金融机构各部门的数据壁垒,还避免数据重复加工;
四、数据需要形成资产体系,让数据产生持续价值。”
新场景、新技术和新需求在驱动金融数据仓库加速变革。传统数据仓库软硬一体的封闭架构、高昂成本、实时处理能力不足等弱点不断凸显,不仅无法实现跨部门、跨系统、跨渠道、跨场景的数据共享与应用整合,让数据无法得到充分的挖掘与分析;更无力帮助金融机构构建起完善的数据资产体系。
“金融业数据仓库在经历了描述型数仓、探索型数仓、运营型数仓三个阶段之后,正在加速向智慧型数仓迈进,从仅支持批量报表服务,到支持数据探索、实时分析、数智融合,支撑业务长期演进和持续创新。”***EI服务产品部总经理尤鹏介绍道。
白皮书也指出,当前经过金融业的探索与实践,围绕分布式和云原生的架构主体,来构建数智融合的数据仓库成为大势所趋,具体包括七大关键技术:超大规模并行处理满足海量数据的算力、高可用及容灾技术实现数据永远在线、动态负载管理满足多样化负载统一管理、数据安全技术保障数据合规访问、融合分析技术打通结构化与非结构化数据分析边界、弹性扩展技术满足系统在线按需扩展和管控一体的智能运维释放运维压力。
例如,“人人用数”是当前很多金融行业重点践行的方向。以某大型股份制银行为例,其以“零售之王”著称于业内,超过2W名员工属于重度数据消费者,从全渠道获取、精准营销到客户精细化运营、风险控制,日常业务中时时刻刻都需要用到数据做决策。“人人用数”带来了各种海量并行操作,对于数据仓库的超大规模并行处理能力、弹性扩展能力和运维能力挑战极大。
事实上,白皮书还对全国百余家金融机构进行了充分调研,提出了金融行业数据仓库十大发展趋势,主要包括“融合”和“普惠”。“融合”主要有T+0分析、湖仓一体、数智融合、存算分离、高维分析、HTAP等;“普惠”则包括数据共享、数据网格(Data Mesh)、数据编织(Data Fabric)、现代数据栈(Modern Data Stack)等。
当前,金融机构数据量、数据类型和数据来源都远胜以往,并且数据分布在数据仓库或者数据湖之中,从而造成数据重复存储、数据管理与分析挑战巨大。因此,金融数据仓库很重要的一大趋势就是走向湖仓一体,湖仓之间互相配合、取长补短,帮助企业构建起统一元数据、数据管理和访问入口的数据平台,从而满足各种业务的用数需求。
“湖仓一体等技术目的是让数据和数据模型自由流转,真正让数据供给侧和使用侧的对接变得更加容易。”刘雷表示道。
又如,很多金融机构在智慧营销、智能风控、智能投研、OCR等业务场景中开始加大AI技术的应用,数据平台与AI平台的融合正在开启,形成能力互补。
刘雷认为,“数据仓库数据管理能力与AI平台流程会形成生命周期管理的结合。数据仓库将关系型的数据开放给AI,并作为AI流程中数据准备、特征工程等强数据处理负载的分析引擎;非结构化数据(如图像、视频、语音、文字)处理和模型训练由AI平台承载,训练生成的模型可直接部署在数据仓库中,由数据仓库来实现推理,并可以直接与数仓中关系型数据关联分析。”
再如,数据仓库也在加速走向“普惠”。“普惠”意味着使用门槛降低和广泛的使用人群,自然会带来灵活性与统一的难题。随着接入数据源越来越多和数据量越来越大,数据仓库等数据平台需要在统一元数据的基础上,采取更加灵活和敏捷的数据治理,推动了数据仓库向数据网格(Data Mesh)、数据编织(Data Fabric)等方向发展。
“金融行业业务场景本身也在走向普惠化、实时化和智慧化,数据规模每年保持了30%以上的增长的速度。因此,基于开放平台和云原生分布式架构的数据仓库,将是各大金融机构数据仓库演进的方向”尤鹏总结道。
白皮书对于金融数字化转型意义几何
《金融科技发展规划(2022—2025年)》明确提出要“激活金融数据要素潜能”、“加强数据能力建设”等内容。面向未来,构建强大的数据能力是所有中国金融机构一门必修课。
一直以来,中国金融机构在业务发展和科技能力上深受IBM、***、Teradata为代表的国际顶级厂商所影响。近年来,在新场景、新需求和新技术等多重因素的交织下,产业变革加剧,很多中国金融机构热切期盼了解数据仓库未来建设方向、技术趋势以及产业现状。
众所周知,当前数据仓库的建设正在成为金融机构数字化转型的刚需,而与数据仓库相关的技术又处于爆发期,从数据治理、数据处理到数据分析、数据智能等技术纷繁众多,国内众多金融机构普遍存在一定程度的迷茫,对于产业现状和技术趋势了解不够,导致了产品选型时普遍遇到困难。
为此,白皮书从技术、历史等多个维度综合分析我国金融数据库技术发展,真正为国内金融机构结合自身情况构建面向未来的数据仓库提供了真知灼见。
其次,中国金融机构地域分布广泛、类型多样,导致不同金融机构在数据仓库、数据平台等方面建设情况千差万别,严重缺乏行业参考。例如,国有大行和股份制银行已经进行了多年的数据仓库建设,现在正加速向数智融合的智慧型数据仓库迈进,其很多实践经验和方法值得省联社、城商行了解与学习。
白皮书则通过国内上百家全行业金融机构的调研,提取了多家同业伙伴数据仓库建设情况和宝贵意见,通过典型案例形成行业参考,为不同类型的金融机构提供极具价值的参考。
第三,白皮书揭示了中国数据仓库产品的崛起,像***等公司的数据仓库产品在国有大行最为复杂、苛刻的场景中得到充分验证和考验,其实时分析、逻辑数仓、HTAP、湖仓一体和数智融合等一系列企业级关键特性也能够满足复杂金融场景的演进需求,为中国金融业的数据仓库建设和数字化转型带来了全新视角和思路。
总体来看,在新场景和新技术的双轮驱动下,数据仓库在金融业的应用正处于一个变革期。《金融数据仓库发展报告(白皮书)》很好地剖析了当前数据仓库在中国金融业的建设情况和未来发展趋势,对于中国金融业数字化转型大有裨益。面向未来,随着中国数字经济持续发展,中国金融业的数字化转型对于支持经济长远发展至关重要,数据仓库也必然会发挥更大的价值与作用。
金融机构建设数据仓库并非一朝一夕之事,需要投入巨大的人力物力,是整个公司战略级的项目,本文只是结合自己的行业知识,整理下大概的建设思路。
什么是数据仓库?来自百度百科的解释:数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
从上面概念中,大概可以知道数据仓库是用于上层分析性报告和决策支持的基石,也就是现在流行的数据中台中重要的组成部分。所以搭建好数据仓库,是整个数据中台建设的重中之重。
数据仓库一般分为4个层,依次是数据缓冲层-->数据整合层-->数据基础层-->数据服务层,加上底层应用系统的数据源层,和上层分析应用的数据集市层,整个分布图大概如下:
下面主要说明下,每个层的作用,以及层与层之前的转换边界问题。
数据源:主要是企业早期建立的各个独立的业务系统或者数据中心,简单的说就是各个数据库DB实例。
数据缓冲层:也称贴源层或ODS层,存储的表数据基本和数据源一致,只是扩展了数据导入时间和导入日期,因为它的数据来源需要通过ETL从数据源层抽取转换过来。
数据整合层:也称模型层,这层是整个数据仓库最重要的,它的作用是对公司的全域数据进行系统建模,相关人员必须对整个行业的业务十分熟悉,比如基金行业,需要对证券主信息标准化,证券市场信息标准化,数据字典标准化,数值(单位)标准化,记录(数据来源)标准化等等。数据缓冲层到数据整合层,会涉及到数据的简单清洗和转换,但不会涉及到计算过程。关于行业标准,这里引用下《中国资本市场标准网》
数据基础层:也称基础指标层,从数据整合层到数据基础层,会涉及指标因子的计算,比如持仓市值=持仓数量*收盘价,不过基本都是简单的计算。
数据应用层:也称指标准备层,从数据基础层到数据应用层,会涉及指标的深度计算,比如由数据基础层计算的收益率,延伸计算为7日收益率,成立以来收益率等等。数据基础层形成的指标,也会直接复用到数据应用层。
数据集市:这层主要是业务场景的应用,根据具体的业务场景,由数据应用层的指标进行拼凑,形成具体的解决方案,供上层应用分析,决策。
上文就是小编为大家整理的中国金融业数据仓库有哪些重要趋势?金融行业数据仓库的建设思路。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。