麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践
2754
2023-06-13
本文讲述了数据整合流程七大环节,常见的数据整合有哪些方法?有哪些分类?
数据整合流程
在传统的数据集成活动中,客户端向主服务器请求数据。主服务器随后从外部和内部来源收集必要的数据。从源中检索数据,然后将其聚合到统一的数据集合中。这将返回给用户以供他们消费。这将返回给用户以供他们消费。
每天,公司都会从越来越多的信息源中以各种形式收集越来越多的数据。组织需要一种供员工、客户和客户从这些信息中提取价值的方法。这意味着企业此时必须能够从任何地方收集相关数据,以支持他们的报告和公司运营。
然而,基本数据通常分散在本地、云端、物联网设备内部或第三方提供的应用程序、数据集和其他来源中。组织不再将数据保留在单个数据库中;相反,除了跨众多来源的新形式的结构化和非结构化信息之外,他们还维护传统的交易数据和主数据。例如,公司可能拥有平面文件中的材料或需要通过 Web 服务检索数据。
传统的数据集成方法称为物理和逻辑集成技术。这包括将信息从其源存储库物理传输到暂存点,在将数据物理传输到目标系统(例如数据仓库或数据集市)之前,在暂存点进行清理、映射和转换。
另一种方法是数据虚拟化。这种方法需要使用虚拟化基础设施来访问物理数据档案。与物理数据集成相反,数据虚拟化包括在不需要物理数据传输的情况下生成核心物理环境的模拟或虚拟化表示。
提取转换和加载 (ETL) 是一种标准的数据集成方法,其中数据从多个源系统中物理获取,转换为新布局,然后加载到集中式数据存储中。
为了更好地理解数据集成的过程,让我们看看您可以使用的不同方法、途径和技术:
1.整合数据
数据整合以物理方式组合来自多个系统的数据,在单个数据存储库中生成整合数据的副本。通常,数据聚合的目的是减少数据存储站点的数量。ETL 技术支持数据整合。
ETL 从各种来源提取数据,将其转换为可理解的格式并将其传输到不同的仓库或数据库。在填充新源之前,ETL 过程会清理、组织和转换数据,然后实施业务规则。
2. 手动整合数据
手工编码,通常称为手动数据集成,是最基本的数据集成方法之一。该策略仅适用于集成有限数量的数据流。构建代码来收集数据、根据需要修改数据并集成它可能是有利的。尽管手工编码可能不需要任何软件投资,但它可能很耗时,并且扩展集成过程以包含新数据源可能具有挑战性。
3.使用中间件进行数据集成
中间件数据集成是一种策略,其中中间件应用程序作为中介运行,协助数据标准化并同化到主数据池中。(考虑过时电气设备的适配器及其连接点)遗留程序通常不能很好地与其他程序配合使用。当数据集成系统无法独立访问来自任何这些应用程序的信息时,将使用中间件。
4.采用联邦
联邦利用虚拟数据存储库,并为跨多个系统挑选的异构材料开发统一和通用的数据架构。数据通过单一入口点进行编译和访问。企业信息集成 (EII) 是数据联合的支持技术。它使用数据抽象提供来自多个来源的数据的统一表示。然后,应用程序可能会以创新的方式显示或分析这些数据。联合和虚拟化是有效的变通方案,适用于数据整合成本高得令人望而却步或导致过多的安全性和合规性问题的情况。
5.传播数据
使用应用程序将信息从一个地方复制到另一个地方就是数据传播。它可以同步或异步进行,并且是事件驱动的。企业应用程序集成 (EAI) 和企业数据复制 (EDR) 解决方案有助于数据传播。
EAI 连接应用程序系统以进行消息传递和事务交换。集成平台即服务 (iPaaS)是 EAI 的当前集成策略。EDR 通常不是应用程序,而是跨数据库传输大量数据。日志和基本触发器用于检测和传达源数据库和其他下游数据库之间的数据流量。
6. 利用数据虚拟化
数据虚拟化值得注意,因为尽管信息位于不同的系统中,但用户仍然可以接收到数据的统一表示。数据虚拟化只是一层逻辑,将所有源系统的数据结合起来,实时传输给业务用户。虚拟化的一个优点是它消除了物理传输数据的需要。由于数据保留在原始源系统中,因此用户不必为保留其信息的多个版本所涉及的额外存储费用而烦恼。
7. 数据的统一访问与通用存储集成
统一访问集成是一种数据集成方法,它强调创建前端,使来自多个源的数据看起来统一。但是,数据保留在原始源中。使用这种技术,可以利用面向对象的数据库管理系统在其他不同的数据库之间创建同质性的印象。
在数据整合中,常见的存储整合也是一种标准的存储方式。集成系统保留实际来源中的信息副本,并以一致和连贯的视角对其进行处理。这与统一访问不同,统一访问中数据保留在其原始位置。数据仓库的经典方法是基于共享存储的原则。
由于企业为了提高其信息化管理水平,会选择使用许多系统来管理公司,比如ERP,CRM、PDM,CSM等等。但是企业的许多数据会分别在不同的系统中独立存在,造成维护数据变得异常困难和数据孤岛的现象,所以需要各个系统进行整合集成。
常见的数据整合方法有许多种,但是数据整合上分为了实时的与非实时的。非实时的系统会比较容易实现,但是不能实时实现各系统的无缝集成。而实时的系统数据整合就可以采用数据库层的直接集成或者通过面向服务架构来实现,
常见的数据整合方法是实时的,在数据源层负责数据的加工处理,然后将整合后的数据以标准的接口发布到中间件层,由中间件层负责数据的访问。调用数据服务,直接从临时表中取出加工后的数据。
ETL一般由三个阶段组成:
1.从多个来源提取数据并将其移至待定区。
2.经过一系列转换,包括数据标准化和清理(将数据值映射为相应标准格式),然后将数据重组为适合加载到目标数据仓库的格式。
3.转换的数据加载到分析数据仓库环境中。
数据整合ETL的另外一种框架-ELT
最初的创新转变是重新考虑传统操作顺序。一些环境下,不是ETL的提取、转换和加载,而是选择提取数据,将其加载到目标环境中,然后再进行转换。这种称为“ELT”(提取、加载、转换)的方法不仅消除了所需的中间转换平台,而且可在数据仓库环境下同时查看所有采集的数据集,提高转换一致性。此外,ELT方法可以收集转换实时数据源的数据,同时支持传统的生成数据提取。
现代数据整合
与传统ETL方法相比,目前科技数据整合形成一套完整的方法,包括数据访问、获取和移动,即数据从一个位置转移到另一个位置。现代数据整合方法增加了其他流程,用以了解原始数据对象如何引入环境,如何在企业内部移动,不同用户如何使用信息,在此过程中对数据如何转换,以及如何保证不同业务部门数据理解的一致性。从本质上看,数据整合产品应能够定制数据系统解决方案,将数据从生成者传送给用户。
上文就是小编为大家整理的数据整合流程七大环节,常见的数据整合有哪些方法?有哪些分类?
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。