麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践
1148
2023-06-10
数据湖治理:优势、挑战和入门
成功的数据治理计划会利用政策、标准和流程来创建高质量数据,并确保在整个组织中正确利用这些数据。数据治理最初侧重于关系数据库和传统数据仓库中的结构化数据,但后来情况发生变化。如果你的企业拥有数据湖环境,并希望从中获得准确的分析结果,那么你还需要部署适当的数据湖治理,作为整体治理计划的一部分。
但数据湖对企业数据管理的所有领域(包括数据治理)带来各种挑战。下面我们将探讨一些主要的治理挑战,以及有效治理数据湖的好处。不过,首先让我们定义什么是数据湖:这是指一个拥有大量原始数据的数据平台,通常包括各种结构化、非结构化和半结构化数据类型。它通常建立在Hadoop、Spark和其他大数据技术之上。
虽然大多数数据仓库将数据存储在关系表中,但数据湖使用扁平架构。每个数据元素都被分配一个唯一标识符,并用一组元数据标签进行标记。因此,数据湖不像数据仓库那么结构化。数据通常以其原始格式保留,并根据特定分析用途的需要进行分类、整理和过滤,而不是在将其加载到数据湖中时。
数据湖与数据沼泽
如果数据湖没有得到很好的管理和治理,它可能会变成沼泽而不是湖泊。数据在没有适当监督和记录的情况下被转储到平台中,使数据管理和治理团队难以跟踪数据湖中的内容。这可能会导致数据质量、一致性、可靠性和可访问性方面出现问题。
因此,数据科学家、数据工程师和其他最终用户可能无法为分析应用程序找到相关数据。更糟糕的是,数据沼泽可能会导致分析错误,并最终导致糟糕的业务决策。数据安全和隐私保护可能无法正确应用,从而使企业的数据资产及其商业声誉面临风险。为了避免这种沼泽地情况,企业必须管理数据湖环境。
数据湖治理的好处
有效的数据治理使企业能够提高数据质量,并最大限度地利用数据进行业务决策,这可以带来运营改进、更强大的业务战略和更好的财务绩效。这个道理同样适用于治理数据湖,就像它与其他类型的系统一样。数据湖治理提供的具体好处包括:
增加对相关数据的访问以进行高级分析。在管理良好的数据湖中,数据科学家和分析团队的其他成员更容易找到机器学习、预测分析和其他数据科学应用所需的数据。 为分析用途准备数据所花费的时间更少。虽然数据湖中的数据通常以原始形式保留,知道特定应用程序需要它,但在受监管的环境中可以缩短数据准备过程。例如,前期数据清理减少以后修复数据错误和其他问题的时间。 降低IT和数据管理成本。通过防止数据湖失控,可以减少所需的数据处理和存储资源。通过提高数据准确性、整齐度和一致性,还可以降低总体数据管理需求。 提高敏感数据的安全性和监管合规下。数据湖的常见用例是帮助营销和销售。因此,他们通常包含有关客户的敏感信心。数据湖的强大治理有助于帮助此类数据得到适当保护,并且不会被滥用。
数据湖治理挑战
数据治理的配套数据管理学科包括数据质量、元数据管理和数据安全,所有这些因素都会影响数据湖治理及其挑战。以下是数据湖部署中遇到的五个常见数据治理挑战。
(1) 识别和维护正确的数据源。在很多数据湖实施中,源元数据没有被捕获或根本不可用,这使得数据湖内容的有效性值得怀疑。例如,记录系统或数据集的业务所有者没有被列出,或者明显冗余数据可能会给数据分析师带来问题。至少,应记录数据湖中所有数据的源元数据,并提供给用户以深入了解其来源。
(2) 元数据管理问题。元数据为数据集的内容提供背景信息,使数据在应用程序中易于理解和使用,元数据是重要组成部分。但是很多数据湖部署没有将正确的数据定义应用于收集的数据。此外,由于原始数据通常加载到数据湖中,很多企业没有部署步骤来验证数据或应用组织数据标准。由于缺乏适当的元数据管理,数据湖中的数据对分析没什么用处。
(3) 数据治理和数据质量缺乏协调。不协调数据湖治理和数据质量工作可能会导致低质量数据进入数据湖。当数据用于分析和推动业务决策时,这可能会导致结果不准确,从而导致对数据湖的信心丧失以及整个组织对数据的普遍不信任。有效的数据湖实施需要数据质量分析师和工程师与数据治理团队和业务数据管理员密切合作,以应用数据质量策略、分析数据并采取必要措施来提高其质量。
(4) 数据治理和数据安全缺乏协调。在这种情况下,未在治理过程中正确应用的数据安全标准和策略,可能会导致访问受隐私法规保护的个人数据和其他类型的敏感数据时出现问题。尽管数据湖旨在成为相当开放的数据源,但仍需要安全和访问控制措施,并且数据治理和数据安全团队应共同努力处理数据湖设计和加载过程以及持续的数据治理工作。
(5) 使用相同数据湖的业务部门之间的冲突。不同部门可能对相似数据有不同的业务规则,这可能导致无法协调数据差异以进行准确分析。拥有一个强大的数据治理计划,具有数据策略、标准、程序和定义的企业视图,包括企业业务术语表,可以减少多个业务部门使用一个数据湖时出现的问题。如果企业有多个数据湖,则每个数据湖都应包含在数据湖治理流程中,并为其分配业务数据管理员。
如何开始管理数据湖
与其他类型系统中的数据治理一样,数据湖治理的常见初始步骤包括:
记录管理数据湖的业务案例,包括数据质量指标和其他衡量管理工作收益的方法。 寻找高管或业务发起人,以帮助为治理工作获得批准和资金支持。 如果你还没有适当的数据治理架构,请创建一个架构,其中包括治理团队、数据管理严以及数据治理委员会-由业务主管和其他相关数据所有者组成。 与治理委员会合作,为数据湖环境制定数据标准和治理政策。
另一个好的初始步骤是构建数据目录,以帮助最终用户定位和理解存储在数据湖中的数据。或者,如果你已经拥有其他数据资产的目录,则可以将其扩展为包括数据湖。数据目录捕获元数据并创建可用数据的清单,用户可以搜索以找到他们需要的数据。你还可以在目录中嵌入有关你组织的数据治理策略的信息,以及强制执行规则和限制的机制。
总之,通过在设计、加载和维护数据环境中涵盖强大的数据治理以及元数据管理、数据质量和数据安全流程,可以显着提高数据湖的价值。经验丰富的专业人员在所有这些领域的积极参与也至关重要。否则,你的数据湖可能确实会变成更多的数据沼泽。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。