麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践
1126
2023-06-30
本文讲了数据治理与集成服务平台,数据开发治理平台的okr。
数据治理与集成服务平台的系统价值:
丰富的模型组件,降低建模的技术门槛,高性能内存计算技术,减少SQL语句对数据库的压力。数据模型开发与管理,覆盖数据清洗和数据治理。支持实现流批一体的整合方案。
典型用户:
经过自助探索更直观的呈现价值信息,通过拖拽组件,降低数据开发的复杂度
解决用户痛点:
系统内置的组件和模型经验,帮用户减少对技能和人才的依赖。可视化组件和逻辑,让流程始终有据可查,减少人员变动造成的隐患。
产品优点:
1、一站式建模:一站式覆盖模型开发、在线模型推理、步骤验证、任务调度工作,完成所愿。
2、低门槛建模:系统内置数据处理组件,并帮助用户验证中间结果和状态,简化了生产过程,降低了技能要求。
3、高性能计算:分布式高性能计算框架,有效减轻数据库的压力。
典型功能:
1、可视化数据开发和治理组件,自定义编排开发模型,结构清晰
2、可视化任务和作业开发及调度
3、查阅每一步执行结果
4、允许自定义组件
5、与实时计算进行整合
6、数据虚拟化,异构数据源实时获取的数据,与本地数仓数据合并计算
7、自助探索数据,形成可视化分析图表
应用场景:
1、数据隐私计算:数据开发者可以只看到脱敏数据的情况下,进行模型开发工作
2、大规模数据模型计算:组件的性能超越SQL语句,并在多个数据节点并行计算。
数据治理——用量化数据去实施治理
感受一:要用量化KPI去治理才看得见治理效果
在推进数据治理工作的过程中,尤其是在核心的数据标准、质量、安全领域,经常会提出“尽量、最好”性质的要求。这些要求往往 以 OKR 关键目标为代表,对于 数据治理工作的建设高度有着很好的驱动力,但也容易因为基层实施团队在资源能力、时机条件、认识理解等方面的不同,导致落地困难。
在真实的企业数据治理工作中,“最好是好的敌人”。很多时候,“尽量、最好”不容易评估,只能明确大致的目标,也不容易当下立见。 相对地, “至少、起码”性质的任务就更容易量化,用这个思维确定KPI ,然后逐级量化 地实施治理目标,即找到了管理的抓手、路径和改进的阶梯。
例如,数据能力支撑中,绕不开对企业级数据中台的规划和实施,这其中,数据仓库模型设计是一个重点。以此为例,其规范和规划要体现整体性、统筹性;但由于企业级数据项目牵涉面巨大,多个不同项目组的并行实施过程中,难免会有信息沟通方面的问题。这时候,数据治理的角色和担当就是要找到“兜底、把关” 的 KPI ,画出底线和高压线。通过 设置KPI ,保证模型设计的基本要素齐全、信息 共享透明,通过执行主题数据表的空值检查和枚举值核查、跨领域数据表冗余性比对、关键数据表的历史检查和跨表核对等实现管控,保证可复用模型的权威,即为主题和领域模型的真正开放共享打下基础。
这些工作,是将数据治理理念在具体团队、具体资源、具体环境中真正落地成实际条例和规则,以实现技术化、批量化操作,保证不因执行团队的个人和能力问题出现范围和程度上的走样。
感受二:管理主建、应用主战,以用促建、以用带建
数据治理不是数据管理部门一方可以独立完成的,即使在数据管理部门内部,也有多个团队联合协同, 形成 “主建”和“主战”的合作关系。业务部门和应用团队的目标往往是尽快完成任务,而数据治理其实是对业务团队和开发团队的约束和管理,包括要求需求要规格化,开发要统一标准等,这对业务和应用团队 来讲可能是 “成本”而 非 “动力”。为有效推动数据治理工作,就需要将应用的“战”和治理的“建”结合起来。
最为典型就是数据标准管理。数据指标的标准化、企业级指标库的统筹规划和管理等,是建的部分,也是数据治理的核心领域;但真实感受到指标管理的方便、有效、有价值,是业务部门和数据应用部门。单纯强调“扎口、集中、统一”管理,却远离业务的实操和理解,是很难真正实现集中扎口的。尤其若是增加了长流程审批等工作要求,还容易造成管理链条变长、效率变低、业务部门体验感下降的问题。
反之,由治理部门负责把标准规范和指标库等基础设施建立起来,把握住数据主人、授权等级、安全管理等基本因素,以及加强对指标复用、开放和共享方面的推动,做好“建”的角色;将指标梳理、维度建模和集市建设等工作交由应用团队来实施,让与业务部门并肩作战的数据应用团队具体落实指标梳理工作和进行一定程度的管理,两方协同合作以获得更好的效果。
数据应用部门对业务部门进行的复杂测算和指标搭建有现场感,在这个过程中,能真正让数据标准的治理尤其是指标的治理在业务场景中发挥作用,是典型的“以用促建”。找到分析应用主题,也就找到了数据标签、指标、模型的落地方向,有利于进行数据源头、数据中台、数据应用之间的全链条梳理,对数据埋点、分拆粒度、核算口径、模型参数等也能有更深入的认识,对数据质量的把控可以更加及时,从而实现“以用带建”。
感受三:能建大楼,能踢点球
数据治理是解决“亚健康”的问题,是对很多“长期问题”的系统性改善。因此,数据治理首先必须有体系和框架,有实施路径的规划和思考,有解决深层次问题的清醒认识,有层次化推进的基础建设,有长治久安的使命感和责任心。但是,实践中的数据治理,问题和挑战点多面广,牵涉人员复杂,任务紧迫,时间窗口却有限,就必须要 会 “踢点球”,要有点对点解决实际问题的能力。
对于商业银行而言,框架性的数据治理工作可以 按照监管机构和央行要求,以数据管理能力成熟度评估 DCMM 等评估过程为依据,对照自查,逐项对标,标杆式 地进行工作规划和实施。从实际工作看,若能 完成 DCMM量化管理级标准,就算是建起了一栋大楼的框架。
另一方面,数据治理体系框架是覆盖面,点上的突破需要一事一议,逐个攻克。数据治理最终、最客观的评价,仍然是监管报送准不准、分析挖掘快不快、用户体验好不好、安全防控牢不牢这些基本命题,但这并不能满足商业银行管理层和用户的要求。这就需要踢点球, 即 “问题导向、价值驱动” ,相比整体性、综合性的体系和框架,更加强调能不能找到工作抓手、形成量化管理 KPI 。比如,数据标准中的企业级数据建模 需要借助全面企架重构 将 C 模型落地,即把 主数据管理、数据标准管理和数据主人认定落实到开发过程,通过这个方法解决考核管理中涉及机构、管户数据等领域的关键问题。为此,周周谈发布了9 篇文稿来谈 这项工作的思考和设计,并考虑下阶段如何通过高阶建模在现有条件下进一步提升。
以下我们谈谈对数据治理焦点工作中的几个判断。
判断一:管住增量 + 消化存量是很长一段时间的基本方针和可行选择
数据治理不是在一张白纸上进行,商业银行有大量的存量系统,数十万张表,数百万个数据字段项,这些存量数据不是资产,某种意义上是数据治理工作的成本。将存量数据转化为可用的数据资产需要全面重构模式的数据治理,而事实上目前商业银行难以得到一个全面重构的时间窗口。因此,数据治理必须采用的方案就是对增量和存量部分采取不同策略。
目前行业里面的经典数据治理方法论,大多是针对新建和新增数据的。部分头部企业对于存量数据、存量系统领域在理论方面的探讨并不丰富,实施方案也各有不同。从实践经验来看,可行的操作性方案基本就是管住增量、消化存量。增量部分如果不管住,很快就成为存量;而存量部分如果不消化,将来就会成为商业银行难以承受的负担。
消化存量的理性策略就是,在全面分析存量系统的基础上,有选择和有范围地进行数据治理,这其中,问题导向和价值导向是比较合适的选择,其成本可控、成效可看。反之,若过于追求自底向上的全面模式,容易导致操作时间长、反馈长、业务视角评价失焦等问题,即容易因为“撒网太广”而“感受有限”。一般而言,监管驱动、业务应用驱动的存量数据治理,更容易得到业务部门和开发团队的理解和配合。
判断二:数据质量是数据治理成效的主要评价指标
数据治理的核心使命和最终目标是业务价值的释放。如何 说明数据治理的成效,是数据治理的必答题。一段时间,人们对数据治理的成效是从 DAMA 的数据治理领域框架去谈的,实际上, 这其实是数据治理的过程。正确的数据治理成效表达,是以业务为单元,整合数据治理在标准、质量、安全、基础设施和能力体系建设方面的成果,以这个业务单元的业务价值成效来反映数据治理的成效,其中,数据质量提升是最为主要的一个评价指标。
例如,很多数据治理工作的成果都会提出关于数据标准规范和数据质检规则条目,数据指标和数据标签数量等内容,但是更有价值的数据治理成果应该来自于为了实现业务活动,数据治理如何提供了数据和应用能力的支撑。例如在零售业务支撑方面,包括在新市民、养老金融、客群经营和营销活动中,数据治理解决了哪些客户、机构、员工等主数据打通的问题,解决了分析过程中的关键枚举值信息的问题,解决了源头系统的数据采集缺失和合规性问题,解决了报告和报表层面的数据口径测算和复合分析的问题,从而为业务部门的价值考核和经营管理提供数据层面的有效供给和质量保证。
在实际工作中,业务部门和用户团队对数据治理的体会就是一句话:这张表是否准确可用?多数时候,能够回答好这个问题,就是数据治理成功的标志之一了,也是对数据治理团队提出的要求。
数据治理是一个“永远在路上”的工作,类似的感受和思考其实还有很多。只要事情在进行,就会有层出不穷的问题,但只要能从解决最终问题的角度出发,就一定能够建立理论联系实际的桥梁,也一定会有完善的解决思路和方法。保持初心和使命,久久为功,也许就是数据治理最必要的心态和最重要的原则。
上文就是小编为大家整理的数据治理与集成服务平台,数据开发治理平台的okr。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。