麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践
1469
2023-06-08
本文讲述了OLAP 服务入门,OLAP选型及使用场景
IBM *** Data Warehouse Edition 是一套产品,它结合了 *** 数据服务器的长处和来自 IBM 的强大的商业智能基础设施。*** DWE 集成了用于仓库管理、数据转换、数据挖掘以及 OLAP 分析和报告的核心组件。在本文中,我们主要关注 *** DWE 提供的 OLAP 服务。什么是 OLAP 服务?
On-Line Analytical Processing(OLAP)是一类软件技术,它们使用户(业务分析师、经理和执行官)能够以交互形式快速、一致地探查数据,用户看到的是经过转换后的原始数据的各种信息视图,它们可以反映业务的真实维数。
OLAP 的功能
多维的—— OLAP 服务通过支持空间聚合路径(dimensional aggregation path)或层次结构和/或多重层次结构,提供了大量数据视图或多维的概念性视图。
容易理解—— 为 OLAP 分析设计的数据市场可以处理与应用程序和开发人员相关的任何业务逻辑和统计分析,同时使它对于目标用户而言足够简单。
交互性—— OLAP 帮助用户通过对比性的个性化查看方式,以及对各种 “what-if” 数据模型场景中的历史数据和预计数据进行分析,将业务信息综合起来。用户可以在分析中定义新的专用计算,并可以以任何希望的方式报告数据。
快速—— OLAP 服务常常以多用户的客户机/服务器模式实现,而且无论数据库的规模和复杂性有多大,都能够对查询提供一致的快速响应。合并的业务数据可以沿着所有维度中的层次结构预先进行聚合,从而减少构建 OLAP 报告所需的运行时计算。为什么要执行 OLAP?
传统的(SQL 或其他)基于脚本的数据分析报告的构建方式常常是从两维关系数据库表中获取数据。先对这些报告进行格式化,然后将它们呈现给用户。两维报告的缺点是:
报告是预定义的,内置在制作报告的应用程序中。在许多情况下,无法轻松地修改它们来适应业务报告需求的变化。
修改报告或建立新的报告需要 IT 专业人员。
报告用户与业务数据是分离的。
另一方面,OLAP 报告将业务数据结构、过程、算法和逻辑的复杂性集成到了它的多维数据结构中,然后向最终用户呈现容易理解的维信息视图,让他们能够以非常自然的方式探索业务数据。多维结构听起来非常复杂,其实不然。OLAP 并不在业务数据上添加额外的数据结构或维。它只是以维的方式识别复杂数据,并以非常容易理解的方式向数据消费者呈现数据。
利用 OLAP 服务,用户可以轻松地找到预定义的报告并探索业务数据,以建立新的专用业务报告,而这些都不需要 IT 专业人员的帮助。OLAP 报告使用户非常接近业务数据,使他们能够认识到业务数据维的存在并理解哪些业务问题可以得到回答。
OLAP 报告在当今非常流行,它广泛地用作向顾客提供数据仓库解决方案的基础。OLAP 数据市场
在谈到数据市场时,许多人可能会立即想到多维或 OLAP 分析。根据定义,数据市场是数据仓库的一个子集,是专门针对特定的用户群或特定的主题领域设计的。OLAP 是对数据市场中的数据进行分析的方法之一。在本文中,我们将专门为多维分析设计的数据市场称为 OLAP 数据市场。*** DWE OLAP 数据市场是一种具有以下性质的数据库:
它具有星形或雪花形的维数据库模式设计。
数据库可以存储 OLAP 元数据,包括 OLAP 模型和多维数据集。
数据库可以包含物化查询表(MQT),即用于 DWE OLAP 模型和多维数据集的预联结和预聚合的表。OLAP 和数据仓库
OLAP 是大多数数据仓库解决方案中使用的报告实现之一。OLAP 解决方案有时候被错误地称为数据仓库解决方案。在为某个部门或有限的用户群开发 OLAP 解决方案时,这种说法尤其容易引起误解。
数据仓库最重要的特性是数据集成,而数据仓库最重要的用途是信息数据呈现。OLAP 服务并不是主要针对数据集成而设计的;但是,它是一种强大的数据呈现方法,在大多数数据仓库解决方案中都使用 OLAP。
典型的 OLAP 服务常常源自一个或多个专门设计的数据市场。OLAP 服务应该被看作数据仓库解决方案的一部分,参见图 1。图 1. 数据仓库中的 OLAP 报告
OLAP 维和层次结构
OLAP 服务涉及许多概念。我们会根据上下文的需要介绍它们。但是,在 *** Online Information Center 中也可以找到所有 OLAP 概念(请参阅本文的 参考资料部分)。
OLAP 维(dimension)能够对描述业务度量的某一方面的一组相关数据属性进行分类。维根据区域、产品或时间等逻辑类别对事实对象中的数据进行组织。
OLAP 维引用零个或更多的层次结构(hierarchy)。层次结构描述引用的数据属性的关系和结构,这些数据属性被划分为几个级别(比如时间维中的年、月和日),从而提供一种在维中进行移动的可导航且可计算的方式。OLAP 模型和 OLAP 多维数据集
OLAP 模型和 OLAP 多维数据集是 *** DWE OLAP 服务中的两个重要概念。多维数据集模型代表 OLAP 数据市场中的数据结构和关系。多维数据集模型包含元数据对象,这些对象描述基表数据中的关系以及相关数据位于什么地方。多维数据集模型让信息消费者能够从一个新的视角理解数据。图 2. OLAP 模型对象
OLAP 多维数据集具有一组特定的、类似但却更多限制性的、衍生自父多维数据集模型的元数据对象,这些对象包括多维数据集维、多维数据集层次结构、多维数据集层和一个多维数据集事实对象。对于每个多维数据集维,一个多维数据集只能定义一个多维数据集层次结构;但是在多维数据集模型中,一个维可以有多个层次结构。
可以使用多维数据集对多维数据集模型进行优化,使它更适应最活跃、最重要的多维数据集模型区域。可以指定优化切片,切片定义多维数据集中最常被查询的特定部分。在为多维数据集模型创建了优化(比如 MQT)之后,从这个模型派生的所有多维数据集都会因此受益。*** Data Warehouse 和 OLAP 服务
IBM *** Data Warehouse Edition(DWE)V9.1 是一个完全集成的强大且灵活的数据仓库平台,提供了元数据和运行时基础设施的深度集成。DWE 集成了数据仓库的核心组件,以及用于实时数据探索和决策的改进了性能和易用性的商业智能(BI)特性,从而帮助用户实现随需利用信息。
可以使用 DWE 建立完整的数据仓库解决方案,其中包括可高度伸缩的关系数据库、数据访问功能、商业智能分析和前端分析工具。DWE 集成了用于仓库管理、数据挖掘、OLAP 和内联分析和报告的核心组件。
*** Data Warehouse Enterprise Edition 中提供了以下产品:
DWE Design Studio,它包含 IBM Rational Data Architect 的子集
DWE SQL Warehousing Tool
DWE Administration Console
*** Universal Database? Enterprise Server Edition, Version 8.2,它包含 *** Data Partitioning Feature
DWE Cube Views?, Version 8.2.3
*** Query Patroller, Version 8.2.3
DWE Intelligent Miner?
*** Alphablox, Version 8.4
WebSphere Application Server Version 6.0.2
DWE 组件分成三个逻辑组。通常将这三个组件组安装在三台不同的计算机上,但是也可以安装在两台计算机上。例如,可以将 Data Warehousing Server 组件和 Application Server 组件安装在同一台计算机上,也可以将它们安装在两台计算机上。下图中显示了这些组。图 3. DWE 运行时体系结构
在 *** Data Warehouse Edition 9.1 的当前版本中的 9 个软件组件中,有 8 个都以某种方式提供了 OLAP 服务。*** Cube Views、SQL Warehousing Tool(SQW)和一个 IBM Rational Data Architect 子集已经集成到了 DWE Design Studio 中,这使 Design Studio 组件成为商业智能开发人员理想的工作平台。*** DWE Design Studio
DWE Design Studio 内置在 Eclipse 工作台中,Eclipse 工作台是一个很容易定制的强大的开发环境。可以结合使用 *** Alphablox 和 Design Studio 来开发端到端 OLAP 解决方案。
我们来看看开发 *** DWE OLAP 解决方案的基本过程以及在这个过程中如何使用 Design Studio:
收集并分析业务需求。
在开发所有 OLAP 解决方案时,首先应该收集并分析顾客的业务需求。在分析业务需求时使用的最重要的方法之一是数据建模。DWE Design Studio 为数据建模提供了丰富的逻辑和物理数据建模功能。
设计和实现 OLAP 数据市场。
除了使用逻辑和物理数据建模功能创建 OLAP 数据库之外,还可以通过反向工程功能从现有的数据库中提取出元数据,然后通过前向工程功能生成物理数据库,从而研究、修改和重用现有的数据库模型。
设计数据流过程来填充 OLAP 数据市场。
Design Studio SQL operators 的库提供了数据流和控制流设计,可以控制将数据从数据源移动到 OLAP 数据市场中的表所需的数据操作。
设计 OLAP 多维数据集模型和多维数据集。
Design Studio 不但可以用来设计、管理和部署 OLAP 模型和多维数据集,还可以用来与其他商业智能工具交换 OLAP 元数据。多维数据集模型在 *** 中定义之后,就可以供 Alphablox 和其他 ISV 商业智能工具使用。共享的元数据包括聚合公式和计算,所以跨业务生成的分析结果具有更强的一致性。
优化 OLAP 模型和多维数据集。
在 DWE Design Studio 中,可以为 OLAP 模型和多维数据集设计和部署物化查询表(MQT)。*** 优化器会利用这些预连接(pre-joined)和预聚合(pre-aggregated)的 MQT,重写输入的查询并将适当的 OLAP 查询转到适当的 MQT,从而显著加快查询的执行。
设计和生成 OLAP 报告。
OLAP 多维数据集可以从 Design Studio 导出到 Alphablox,从而根据业务需求生成 OLAP 报告。可以在 *** Alphablox 中修改 OLAP 多维数据集并将它导入 Design Studio 进行元数据管理。图 4. DWE Design Studio 在 OLAP 服务开发中的作用
这是一个反复进行的过程,理解这一点非常重要。来自解决方案提供商和顾客的领域专家应该积极地参与 OLAP 设计和测试阶段,这样才能提交让顾客满意的 OLAP 解决方案。通过本文的阅读,希望大家都能对***数据仓库OLAP服务有了大体的了解,对大家以后的工作能起到一定的作用。
背景
对于亿级规模的数据量,使用传统数据库分析会比较低效且耗时。
这时就引入了OLAP引擎,本文以impala和spark为主进行介绍。
OLAP典型技术组件
impala是MPP架构,即每个节点的 CPU、内存和存储等都是独立的,不存在共享,每个节点都是一个单独的数据库。
节点之间的信息和数据交互是通过网络实现,每次计算是所有节点都参与计算,容易导致短板效应。
Spark是批处理架构,并不需要所有的节点都参与运算,它在一个任务事件下发以后,控制节点会分配给一些集群中的节点,而这些节点各自完成自己的计算,然后把计算结果写到磁盘里,再交给下一个计算的节点去写入,每次不需要所有的节点去参与运算。
因为节点和它的任务是解耦的,控制节点可以调节分配任务,来减少短板。
olap
使用场景
BI报表,是批处理+MPP组合的形式,其中对业务中的RT和QPS要求不高,重点在于需要支持非常复杂的分析,最好使用的方案其实是批处理+MPP,批处理这层主要是进行数据清洗初步的聚合
通过对业务的理解,将关键的数据保留,通过批处理预先建好DWS层的模式处理,然后使用impala对接BI类工具来支持我们的业务需求,满足复杂分析的要求。
上文就是小编为大家整理的OLAP 服务入门,OLAP选型及使用场景。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。