数据源集市实时流转MySQL状态表的优化方案-PingCAP

数据源集市实时流转MySQL状态表的优化方案

网友投稿 748 2023-05-24

数据源集市实时流转MySQL状态表的优化方案

自打构建数据源集市的技术栈以来，其实整个体系也在不断的完善，在数据流转的出口方向我们基本达成了一致，那就是在保证数据准确性和稳定性的基础上尽可能按照实时的标准去落地数据交付效率，所以数据源集市的目标不是简单交付数据了事，而是需要对中下游的服务提供强有力的支持，甚至提供数据实时流转的参考和依据。

目前一张表的数据如果要提供近实时的数据交付标准，一般有以下的几类策略：

1)基于自增ID的模式，根据数据库的自增ID可以快速的定位数据的增量位置，基本实现数据的增量同步，当然这种模式的局限性比较大，需要表中含有自增ID字段，对于数据库的吞吐量也会有潜在瓶颈，同时不适用于基于中间件的集群环境数据实时流转。

2)基于时间字段同步模式，时间字段的同步是表数据实现增量同步的经典方法，也是和业务紧密结合，但是带来的潜在风险是可能相关的时间字段有多个，同步定制化程度高，另外单一使用增量模式其实难以完全定位数据，还是需要另外一个维度的支持，比如自增ID等。

如果一张状态表要实现实时流转，实时交付，那么面临的问题其实是比较复杂的。

通常这类状态表数据量巨大，但很可能没有基于自增ID的字段(通常是基于业务的ID字段)，而基于时间字段基本可行，但是难以快速定位唯一的记录内容，最紧要的一点是我们通过唯一性定位得到的是变化后的值，变化前的值已经被完全覆盖，所以对于变化量的定义是比较复杂的。

目前来看，碰到的一些瓶颈问题主要有：

中下游的数据服务提取数据时，尽管数据源是实时更新的，但是后续的数据服务是难以定位增量数据的。通过上述的多个维度都不合适，通常做数据检查的时候只能无奈使用select count(*) from xxx这种校验模式，而要解决这个问题最直接的方案就是程序段提供相应的流水日志，如果开发能力较强这个事情比较好落地，而如果业务风险高，这个事情要解决就比较麻烦了。

如下是一种折中的解决方案，在不需要程序修改代码的前提下，能够实时提取数据变化并实时更新同步数据状态，大体的设计思路是基于实时日志服务，在这里是Maxwell.

我来简单解释下，如果一张状态表的数据要实时交付，那么数据源集市中我们保证状态表的数据实时复制是没有问题的，技术上完全能够做到，无论是基于库级别还是过滤到表级别，都是可操作的。

而基于Maxwell的实时日志提取，我们可以从状态表中解析出表中数据实时变化的内容，我们可以间接实现一个账单表，对于中下游来说，就是间接把状态表转换为流水日志表，从而间接实现的实时流转和交付。

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

748 2023-05-24

数据源集市实时流转MySQL状态表的优化方案

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

零售业数据库选型与迁移ToC系统实践大规模场景应用

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20