Region is Unavailable问题的排查记录

Tiit 542 2024-03-18

现象

在我一次对数据库sysbench压测的时候，对数据库准备压测的数据时，居然报[9005]; Region is unavailable

以下是sysbench的config文件

mysql-host=10.11.142.246
mysql-port=3806
mysql-user=root
mysql-password=1111
mysql-db=sbtest
time=120
threads=300
report-interval=10
db-driver=mysql

以下是sysbench准备数据的命令，大概是准备16张表，每张表数据量1000W.

/usr/local/sysbench/bin/sysbench --config-file=config oltp_point_select --tables=16 --table-size=10000000 prepare

分析原因

参照官方文档的集群问题导图对Region is Unavailable的问题导图进行了核查

https://docs.pingcap.com/zh/TiDB/v6.5/tidb-troubleshooting-map#11-%E5%AE%A2%E6%88%B7%E7%AB%AF%E6%8A%A5-region-is-unavailable-%E9%94%99%E8%AF%AF

首先在tikv的日志中发现如下报错

和

在tidb中发下如下报错：

基本可以确定时第一种情况或者第五种情况。

第一种情况主要时tidb在往tikv上面并发写入大量数据时，因为tikv 因为资源紧张导致not leader或者epoch not match 原因被打回；又或者请求 TiKV 超时等），TiDB 内部会进行 backoff 重试。backoff 的时间超过一定阈值（默认 20s）后就会报错给客户端。

但是查看grafana的监控，tikv节点在对应时间段的cpu、内存和io以及网络都不算特别忙碌

tidb-smk-overview→system info

tidb-smk-tikv-details→cluster

这是怀疑是第五种情况，同时参照了case-958，查看了grafana对应的监控

tidb-smk-tikv-details→Raft IO→apply log duration

和tidb-smk-tikv-details→Raft propose→apply wait duration

发现apply log duration并不高，但是apply wait duration非常高，这时结合tidb集群问题导图中的tikv写入慢中apply慢的问题诊断步骤

https://docs.pingcap.com/zh/tidb/v6.5/tidb-troubleshooting-map#45-tikv-%E5%86%99%E5%85%A5%E6%85%A2

查看grafana中对应监控

tidb-smk-tikv-details→Thread CPU→asyncapply cpu

发现apply线程的cpu使用程度已经达到了惊人的196%，而默认的apply-pool-size参数就是2，这也就意味着apply线程已经是在满负荷运行了，看了必须要调整apply-pool-size参数了

处理方法

通过在线修改tikv的apply-pool-size参数为4，即apply线程默认最多使用4颗cpu

SHOW config WHERE NAME LIKE '%apply-pool-size%';
SET config tikv raftstore.apply-pool-size='4';

最终效果

重新生成数据库准备压测的数据，不再报[9005]; Region is unavailable错，同时监控apply进程相关的grafana监控

tidb-smk-tikv-details→Thread CPU→asyncapply cpu

tidb-smk-tikv-details→Raft IO→apply log duration

和tidb-smk-tikv-details→Raft propose→apply wait duration

发现apply线程的cpu使用程度最多也只到376%，没有到极限，apply log duration并不高，但是apply wait duration还是有点高，但是相对于apply-pool-size='2'时，已经降低了很多了。

总结

基本官方文档里面的集群问题导图，进行分析，一般问题都能解决，排查问题要细心。https://docs.pingcap.com/zh/tidb/v6.5/tidb-troubleshooting-map#tidb-%E9%9B%86%E7%BE%A4%E9%97%AE%E9%A2%98%E5%AF%BC%E5%9B%BE

另外考虑此次异常的底层原因，由于原来在一个三台16C64G的云主机搭配垃圾存储的部署的集群也做过类似的数据生成，但是并没有报错，这次反而是在一个三台32C128G的物理机搭配ssd存储的部署的集群出现了问题，感觉是tikv的apply-pool-size参数的默认值2在应对高速磁盘写入时无法受限于apply线程的cpu无法及时的进行apply log，故导致此故障，所以如果使用的磁盘io性能更好时，应该适当的调大此值。

标签：TiDB 数据库 pingcap

Region is Unavailable问题的排查记录

现象

分析原因

处理方法

最终效果

总结

黄东旭解析 TiDB 的核心优势

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20