监控告警处理 TiDB server critical error total指标分析

网友投稿 593 2024-03-10

背景：

监控面板中tidb_server_critical_error_total不为0，存在其它数值，表明binlog写入失败，会影响下游系统同步，需要修正。

一、原理分析

官方文档binlog.ignor-error介绍

实际使用中，在使用pump、drainer组件往下游同步数据的时候，我们为保护主库运行，把binlog.ignore-error参数开启，避免因binlog写入失败导致tidb主集群处于不可用状态。

题外话：不要拉踩，*** DataGuard是通过archive模式进行同步的，存在一个归档空间满，主库hang住的情况。相较于***，tidb多了一个选择，可以丢弃归档日志保障主库业务的连续性，不保证下游数据和上游数据一致性。

二、现象

server---->skip binlog count">

2.1 监控位置：Tidb---->server---->skip binlog count

2.2 curl http://127.0.0.1:10080/info/all

2.3 查看binlog_status 状态，此时一般为 skipping

三、处理方式

考虑下游同步的三种情况，分别处理

情况一：同步任务取消

不再需要将数据同步到某个下游，所以下线对应的 Pump\Drainer。

编辑集群配置文件

tiup cluster edit-config {cluster_name}

打开集群配置文件，在server_config下，tidb下添加或修改配置

binlog.enable: false

滚动重启tidb-server

tiup cluster reload {cluster_name} -R tidb

执行命令

mysql -uroot -h {host} -P {port} -p {passwd} -e "SHOW CONFIG WHERE type =tidb and name like binlog%"

验证两指标binlog.enable和binlog.ignore-error的状态为true

情况二：文件同步任务异常

drainer同步方式为file文件，下游读取文件异常。

修复过程（二选一）：

使用 tidb-server 的 API，然后尽快安排重新全备。

在tidb服务器上对binlog进行recover，

curl http://{TiDBIP}:10080/binlog/recover

重启 tidb-server，然后尽快安排重新全备。

情况三：灾备同步任务异常，官方文档

drainer同步方式为binlog文件，灾备中备库数据异常。

恢复后查看监控checkpoint是否变化，若变化则正常。

四、skip binlog出现的常见情况

3.1 pump磁盘空间满了

导数时需要注意日志空间，同时需要关注pump中stop-write-at-available-space参数，默认为10G。有可能不是空间满，而是pump参数设置不合理导致。

3.2 大事物超过grpc限制

引用官档

五、延伸问题

skip的binlog如果存在ddl，会导致drainer异常重启，报错 not found table id

社区案例：https://asktug.com/t/topic/575578/1

标签：TiDB 数据同步数据一致性

黄东旭解析 TiDB 的核心优势

593 2024-03-10

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

593 2024-03-10

高成本云服务？TiDB 帮你省钱

593 2024-03-10

监控告警处理 TiDB server critical error total指标分析

背景：

一、原理分析

官方文档binlog.ignor-error介绍

二、现象

2.1 监控位置：Tidb---->server---->skip binlog count

2.2 curl http://127.0.0.1:10080/info/all

2.3 查看binlog_status 状态，此时一般为 skipping

三、处理方式

考虑下游同步的三种情况，分别处理

四、skip binlog出现的常见情况

3.1 pump磁盘空间满了

3.2 大事物超过grpc限制

五、延伸问题

黄东旭解析 TiDB 的核心优势

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20

监控告警处理 TiDB server critical error total指标分析

背景：

一、原理分析

官方文档binlog.ignor-error介绍

二、现象

2.1 监控位置：Tidb---->server---->skip binlog count

2.2 curl http://127.0.0.1:10080/info/all

2.3 查看binlog_status 状态，此时一般为 skipping

三、处理方式

考虑下游同步的三种情况，分别处理

四、skip binlog出现的常见情况

3.1 pump磁盘空间满了

3.2 大事物超过grpc限制

五、延伸问题

微信扫一扫：分享

推荐文章

友情链接

热评文章