关系型数据库存储多维指标数据-PingCAP

关系型数据库存储多维指标数据

网友投稿 1147 2023-04-24

关系型数据库存储多维指标数据

什么是多维指标数据？

指标是一个统称概念，可以细分为原子指标和派生指标。以某企业近一周上海地域的销售金额为例，整体是一个派生指标，其中的销售金额是原子指标；近一周是时间，企业和地域是维度。

可见，指标数据由三部分组成：

时间维度数值

其中，维度可以是一个或多个，也可以是零个，简称为多维。

什么是关系型数据库？

典型的关系型数据库就是 MySQL 。

使用时，需要先根据业务设计好数据模式：

数据库中有哪些数据表数据表中有哪些字段

然后，创建相应的数据库和数据表；最后，存储业务数据。

关系型数据库会有一个特殊的约定：数据模式是相对固定的。业务不发生变化的情况下，数据模式不会轻易发生变化。

使用关系型数据库存储多维指标数据会有什么问题？

不同的业务会有不同的指标，每一个业务可以单独创建一个数据库，这个比较好理解。

每一个指标都会有时间和数值，但是不同的指标之间，它们的维度名称和维度数目却可能是不同的。

最直接的设计：

每一个指标单独创建一个数据表，位于某个业务数据库数据表除时间和数值字段外，根据指标的不同，创建若干维度字段

假设某个指标有三个维度：a、b 和 c，表结构如下所示：

timestamp

value

2022-09-15 00:00:00

2022-09-15 01:00:00

2022-09-15 02:00:00

timestamp 表示时间，value 表示数值，a、b 和 c 表示维度。

问题很明显：

如果某个业务拥有成千上万个指标，就需要创建成千上万个数据表。无论是预先创建数据表，还是随着指标的新增动态创建新的数据表，如此数目庞大的数据表是不能接受的。固化的数据表结构不能很好地应对指标的维度名称和维度数目发生变化的场景。

受限于业务方的部署环境，仅支持关系型数据库 MySQL；而且业务方不能接收一个业务指标一个数据表的粗暴设计。

思考

业务指标的数目是不可控的，但业务指标的维度数目是相对可控的，我们是否可以按维度数目创建指标表，毕竟绝大多数数据可视化组件最多支持三维。

比如：

维度数目为 0 的指标表维度数目为 1 的指标表维度数目为 2 的指标表...

假设维度数目为 3 的指标表，表结构如下所示：

timestamp

value

2022-09-15 00:00:00

2022-09-15 01:00:00

2022-09-15 02:00:00

id 表示指标 ID，用于唯一标识指标；d1 、d2 和 d3 分别表示维度1、维度2 和维度3。

一张数据表中可以存储多个相同维度数目指标的数据，如：m1、m2 和 m3。存储指标数据时，只要按指标的维度数目，将指标数据存储到相应维度数目的指标表中即可。指标表可以根据业务可能的最大维度数目预先创建，业务维度数目需要扩展时，仅需要新增有限的几张特定维度数目的指标表即可。

还不够！

指标有维度的情况下，指标表仅支持按指标维度次序，依次存储和查询维度1、维度2、... 的维度数据，并不知道具体的维度名称是什么。

考虑到业务希望指标发生变化时，历史数据可追溯，同一个指标需要有多个版本。

也就是说，我们需要知道：

指标的版本有哪些指标的某个版本有哪些维度，维度名称是什么指标的某个版本有哪些数据

我们可以：

创建一张版本表，存储指标有哪些版本创建一张维度表，存储指标的某个版本有哪些维度（名称）根据维度数目创建若干张指标表，存储指标的某个版本的指标数据

可行！

存储方案

版本表

version

id 表示指标 ID，version 表示版本号。

版本表存储着指标和版本的对应关系，可以查询指标的历史版本记录，也可以查询指标的最新版本。

维度表

version

name

id 表示指标 ID，version 表示版本号，name 表示维度名称。

维度表存储着指标/版本和维度名称的对应关系，可以按指标 ID 和指标版本查询维度名称列表，多个维度名称的顺序按维度名称存储顺序依次排列。

指标表

version

timestamp

value

2022-09-15 00:00:00

2022-09-15 01:00:00

2022-09-15 02:00:00

指标表存储着指标数据。注意，维度1、维度2 和维度 N 的表现形式。

存储指标数据

新增指标时，使用 Unix 时间戳作为版本号，存储指标 ID 和版本至版本表；如果指标有维度，存储指标ID、版本号和维度名称至维度表，如果维度有多个，需要按照维度排列顺序依次存储多条记录。

修改指标时，如果修改后的指标维度名称列表和维度表中该指标最新版本的维度名称列表数目或内容不一致，需要和新增指标一样，存储该指标新的版本号和维度名称列表。

存储指标数据时，获取维度表中该指标最新版本的维度名称列表，即可知指标维度数目；根据维度数目选取指标表，将指标数据存储至该指标表，维度名称需按顺序依次存储至维度1、维度2、...。

查询指标数据

根据指标 ID 查询版本表，获取该指标的最新版本号，或者直接指定某个版本号；根据指标 ID 和版本号，查询维度表，获取该指标的维度名称列表和维度数目；根据指标的维度数目，选取指标表；根据指标 ID 和版本号，查询指标表，获取该指标的数据；也可以使用时间或维度过滤指标数据。使用 2 中获取指标的维度名称，替换 4 中获取的指标数据中的维度1（d1）、维度2（d2）、...。

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

1147 2023-04-24

关系型数据库存储多维指标数据

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

零售业数据库选型与迁移ToC系统实践大规模场景应用

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20

关系型数据库存储多维指标数据

微信扫一扫：分享

推荐文章

友情链接

热评文章