黄东旭解析 TiDB 的核心优势
901
2023-06-09
本文讲述了数据治理之元数据管理,元数据(metadata)管理
数字化时代,数据成为驱动经济发展的新引擎。数据成为增强企业竞争力的核心要素,有效地管理和使用数据,对数据进行治理成为企业的刚需。
在数据治理过程中,企业拥有什么数据?数据在哪里?由谁负责?数据中的值意味着什么?数据的生命周期是什么?哪些数据安全性和隐私性需要保护?以及谁使用了数据?用于什么业务目的?数据的质量怎么样?等问题都需要弄清楚,而这便离不开元数据管理。没有元数据,数据就会失去所有意义。元数据的本质是为企业的各类数据提供了上下文环境,使企业能够更好地了解、管理和使用数据。
本篇文章将为大家介绍什么是元数据?元数据有哪些作用?什么是元数据管理?以及企业该怎么进行元数据管理?
什么是元数据?
元数据是关于数据的组织、数据域及其关系的信息,简单来说,元数据就是被用来描述数据的数据。在实际应用中,元数据还存在很多细分概念,但从本质上看,元数据是业务和系统之间的翻译纽带,它提供业务和系统双方都能明白的语义和逻辑,可以更加高效地支撑数据的业务价值。
举几个简单的例子来帮助大家理解:
1、“村里有个姑娘叫小芳,长得好看又善良。”
这是大家耳熟能详的歌曲《小芳》中的一句歌词。我们可以认为,“小芳”是被描述的对象,而“姓名——小芳”、“性别——女(姑娘)”、“长相——好看”、“性格——善良”、“住址——村里”,就是描述“小芳”的元数据。
2、户口本中的信息。
户口本中有姓名、身份证号、出生日期、住址、民族、家庭关系等信息。这些信息就是描述一个人的元数据,通过户口本中的元数据,我们可以了解一个人的基本信息和家庭关系。
3、图书馆的图书目录。
“图书目录”是图书馆中用来管理藏书的文件夹,包含图书名称、编号、作者、主题、简介、摆放位置等信息,用来帮助图书管理员管理和快速查找图书。元数据就如同图书馆的图书目录一样,能够帮助数据管理员管理数据。
可以看出,元数据不是特定的实例或记录,而是比一般意义上的数据范畴更加广泛的数据,不仅表示数据的类型、名称、值等信息,还提供数据的上下文描述,比如数据的所属业务域、取值范围、数据间的关系、业务规则、数据来源等。
元数据有哪些作用?
元数据的主要作用是对数据对象进行描述、定位、检索、管理、评估和交互。
描述:对数据对象的内容、属性的描述,这是元数据的基本功能。
定位:有关数据资源位置方面的信息描述,可以帮助用户快速找到数据资源。
检索:在描述数据的过程中,将信息对象中的重要信息抽出标引并加以组织,建立它们之间的关系,为用户提供多层次、多途径的检索体系,帮助用户找到想要的信息。
管理:对数据对象的版本、管理和使用权限的描述,方便信息对象的管理和使用。
评估:由于有元数据描述,使得用户在不浏览具体数据对象的情况下也能对数据对象有个直观的认识。
交互:元数据对数据结构、数据关系的描述方便了数据对象在不同部门、不同系统之间进行流通和流转,并确保流转过程中数据标准的一致性。
元数据以数字化方式描述企业的数据、流程和应用程序,为企业数字资产的内容提供了上下文,使得数据更容易理解、查找、管理和使用。没有元数据,数据就是一堆数字或文字而已,毫无意义。对元数据进行有效管理是企业数据治理的基础。
什么是元数据管理?
元数据管理是对涉及的业务元数据、技术元数据、操作元数据进行盘点、集成和管理。采用科学有效的机制对元数据进行管理,并面向开发人员、业务用户提供元数据服务,可以满足用户的业务需求,为企业业务系统和数据分析的开发、维护等过程提供支持。
我们可以从技术、业务和应用三个角度理解元数据管理。
技术角度:元数据管理涉及企业的数据源系统、数据平台、数据仓库、数据模型、数据库、表、字段以及字段间的数据关系等技术元数据。
业务角度:元数据管理涉及企业的业务术语表、业务规则、质量规则、安全策略以及表的加工策略、表的生命周期信息等业务元数据。
应用角度:元数据管理为数据提供了完整的加工处理全链路跟踪,方便数据的溯源和审计,这对于数据的合规使用越来越重要。通过数据血缘分析,追溯发生数据质量问题和其他错误的根本原因,并对更改后的元数据进行影响分析。
企业该怎么进行元数据管理?
企业进行元数据管理可以分为以下几个部分:
制度保障:企业高层管理者需要给予强有力的支持,并制定相应的规章制度进行保障,这是元数据管理持续推进的动力。
流程保障:制定企业范围内数据的变更管理流程,保证信息系统中的数据与管理规范、数据标准的一致性。
技术与工具:进行元数据管理,离不开技术与工具的支持。选用合适的工具,能让元数据管理更加轻松便捷。以SoData数据机器人为例,这一款一站式解决数据“实时、轻量、多源、异构”需求的数据开发治理工具,建立了元数据管理体系,可以通过元数据管理工具自动采集元数据信息,协助梳理业务系统,通过元数据分析,了解数据之间的影响、血缘逻辑,帮助用户了解和管理数据关系和脉络。
运营维护:定义捕获、维护业务元数据、技术元数据、操作元数据,定期分发和交付元数据。
什么是元数据
元数据(metadata)是从数据发展而来,同时作为数据的一种功能。
元数据是“数据的数据”,是对数据的标识——我们通常通过一组属性或元素来描述特定的资源,而这些属性或元素就是该资源的元数据。
典型的例子是图书馆的书目,就是一种元数据。书目包含作者、题名、出版日期、主题、存放架号等属性。对于每本指定的书,都会在书目中有上述属性值。这些数据值就是该书的“元数据”。
元数据的层次
分层管理是人们解决复杂问题的一种思路。通常人们会将资源按照一定的层次进行分类,以便于管理。元数据可应用于不同层次,或者说,可以定义全局的元数据,也可以定义某一层次资源的元数据。比如上述书目的例子中,我们可以在“计算机图书”类中加上“相关编程语言”这样一个属性。
元数据的作用
元数据的作用在于:以一种统一和稳定的方式描述和组织存储在不同介质上的信息。元数据有助于查找和描述信息资源,从而可以改进对资源进行检索、管理和利用。
元数据还可以帮助组织电子资源,促进其互用性,验证其标识,以及确保对它们的长期保存。
一般情况下,元数据的公认用途包括:
(1) 描述和发现资源,
(2)管理资源集合
(3)保存数字化资源。
元数据的类型
从上述元数据的作用,可以将元数据分成以下类型:
(1)描述型元数据:用于识别、发现、访问以及评价资源;
(2)管理型元数据:用于整理、聚合、验证和存档资源
(3)存储型元数据:用于资源的存储(典型的如数据库元数据)
另外从信息系统的角度出发,元数据可以分为技术元数据和业务元数据。
技术元数据包括数据源的位置、数据访问协议(ODBC、JDBC、SQL*NET等)、数据源的物理结构(如数据库描述、表定义、栏目描述等)、数据源的逻辑结构(ER模型、目标模型、实体模型)等。
业务上元数据包括与信息获取有关的上下文信息、定义企业组织机构和产品层级的分类法、用来定义商业术语的控制性词汇的词汇表或参考数据,例如医学词典、金融术语等。
元数据管理
元数据管理的目标是为了提升共享、重新获取和理解企业信息资产的水平。良好的元数据管理可以避免信息丢失或隐藏,方便数据集成,从而更好的支持业务。
元数据管理包括元数据的创建、存储、集成、监督和优化几个方面。
元数据创建
元数据通常是被不同的用户或机构共享。为了保证元数据的共享和协同操作,必须建立元数据的构建规则,并加以权限控制,从而保证元数据及相应资源的充分利用。
元数据存储
元数据可以与资源存储在一起(如HTML文件),也可以单独存储(如图书馆书目)。
共同存储的好处是不会丢失,连接可靠的,可以同时更新;
分开存储的好处是易于管理。但是有时候元数据不能与资源一起存储,尤其是业务元数据。
元数据交换
元数据通常在局部产生,但需要在不同的用户或机构之间进行交换。元数据交换是资源共享的重要前提,尽管很多时候这一过程是隐式进行的。
元数据集成
局部定义的元数据可能会产生大量的不一致:相同的名字表示不同的属性,或者相同的属性用多种方法命名。为了保证元数据的一致性,有必要建立“中央知识库”,对组织内部的元数据进行集中管理。
元数据监督
元数据集成后,需要将元数据的修改传播到使用这些元数据的组织或个人。需要建立监督体系结构(定义数据和应用的拥有者),监督数据资产(数据仓库、数据集市、命名标准),并定义监督流程(何时开始更新、如何更新)。
元数据优化
建立元数据模型和标准的词汇表,建立知识本体,对元数据进行优化,并实现知识库和知识集成。
上文就是小编为大家整理的数据治理之元数据管理,元数据(metadata)管理。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。