TiDB OOM问题分析的最佳实践SOP

网友投稿 415 2024-02-26

大家可能经历过这样一个场景，在某个正在熟睡的凌晨突然收到告警电话有 tidb-server 节点频繁重启，可能还伴随有内存告警，然后赶紧起来排查确认。上线一看发现不少节点出现了 OOM ，类似上图，在找到对应的 SQL 和业务一确认后，确定是凌晨偷偷新上的统计任务导致了这次的问题，赶紧让业务先停掉完，告知业务完成优化且经过 DBA 确认后再另外排期上线，之后骂骂咧咧的再次滚回被窝去。这个案例起码至少说明了几个问题：

开发能力和开发规范遵循问题

上线流程控制问题

数据库自身资源管控问题

在问题出现后数据库管理员总结排查方法，还可以针对性的做好开发手册指引和培训工作。

而我们在 TiDB 的使用过程中，尤其是访问大量数据的分析型业务场景，很难不会遇到 OOM 的问题。OOM 的问题一旦出现，集群必然会受到影响，所以，这就要求我们能够以尽快的速度完成排查和处理。本文这里总结一些日常管理 TiDB 集群的经验，方便后面遇到类似问题时可以作为一个排查思路和操作指引，协助快速处理 OOM 问题。

是不是OOM问题？

有收到内存告警、节点卡住或重启的情况，我们可以在脑海中有个初判会不会是 OOM 问题。TiDB 集群 OOM 通常出现在 tidb-server 节点上，也有少数情况出现在 tikv-server 节点。大致可以先通过下面的分析流程进行排查，确认是不是 OOM 的问题。

如上图所示，我们遇到问题后可以有下面的分析来确认是不是具体组件出现了 OOM 。

是不是 tidb server OOM 问题

业务侧、用户端：

部分访问有明显延迟

部分业务有lost connection 的报错

grafana监控：

uptime出现掉线重启

Overview->TiDB->Memory Usage 出现高峰急剧掉线重启

tidb server日志：

tidb.log 在问题时段出现Welcome 重启关键字

tidb_stderr.log有oom或can not allocate memory关键字

系统日志

tidb server节点系统日志 dmesg -T| grep tidb-server 在问题时段附近有OOM Killer出现

（图片来源https://tidb.net/blog/de9bf174）

是不是 tikv server OOM 问题

业务侧、用户端：

集群访问延迟有突增

业务QPS有明显抖动

grafana监控

tikv detail->cluster->uptime出现掉线重启

tikv detail->cluster->memory面板看到有tikv实例的内存剧烈上升后突然掉零再慢慢增加，可判断为tikv OOM重启了

tikv server日志

排查tikv.log日志，在问题时段附近有Welcome实例重启标记

系统日志

dmesg -T| grep tikv-server在问题时段有OOM-killer日志

OOM原因是什么

当遇到OOM的问题之后，排查触发原因时，大致可以分为两类原因：

数据库原因导致的 OOM

非数据库原因导致的OOM

数据库本身导致的 OOM 问题，通常是统计信息不准确导致执行计划问题、集群配置参数使用不当等引起情况。非数据库原因导致的 OOM 问题，通常可以归类为硬件资源不足、混合部署等原因，比如其他应用进程抢占了过多的内存资源导致 TiDB 被系统的 oom-killer 直接干掉。

OOM如何处理

针对不同的 OOM 触发根因，我们会有不同的处理策略。

如何处理tidb server的OOM问题

非数据库原因

机器内存不足

确认部署 tidb server 的机器操作系统内存是否太少，导致内存不足。开发及测试环境建议值是16 GB+，生产环境建议值是48 GB+。

https://docs.pingcap.com/zh/tidb/v7.4/hardware-and-software-requirements

集群混部问题

排查是不是部署过多的实例节点，如果节点个数太多也容易引起 OOM。生成环境下内存 128 GB 的机器，通常建议部署 2 个 tidb server 节点就够了。可以考虑通过增加cgroup策略来进行资源划分。

排查tidb server 是不是和 tikv server 混合部署，如果是也有可能会有内存相互挤兑从而触发问题。可以考虑通过增加cgroup策略来进行资源划分。

确认是否有业务进程混合部署，导致内存资源挤兑。应该专机专用，不部署业务程序。

数据库原因

如果发现内存正在上涨还没有出现 OOM 但是也有 OOM 的风险，可以根据下面的方式获取相关信息来分析：

查看当前链接的内存使用情况

执行 SELECT * FROM information_schema.processlist; 查看 SQL 对应的 MEM 列的值，定位到使用内存最多的语句。

执行以下命令收集内存使用率高的 tidb server 的 Profile 信息

server_profile.zip

原因判断和处理：

问题 SQL 定位

获取可能的问题 SQL，可以查看 INFORMATION_SCHEMA 中的 SLOW_QUERY 和 CLUSTER_SLOW_QUERY 。

也可以通过 tidb dashboard的慢SQL和 SQL语句找到问题附近的 SQL并分析，定位到具体的问题 SQL，从 SQL 语句分析、慢查询的具体内容，可以详细查看内存使用量。

同时 grep expensive_query tidb.log 辅助定位问题时间点的 SQL 情况。

如果确认是 SQL 的执行计划有问题，如缺少合适索引、统计信息过期、优化器 bug 等原因，很可能会导致选错执行计划而导致大量中间结果数据累积在内存，出现 OOM。

可以添加合适索引、使用 analyze 重新收集统计信息等措施进行处理。

如果确认 OOM 时是系统在收集和加载统计信息的过程中消耗太多内存。

可以指定采样率、指定只收集特定列的统计信息、减少 ANALYZE 并发度等方式减少内存使用。

v6.1.0 以后引入了系统变量 tidb_stats_cache_mem_quota对统计信息的内存使用进行限制，引入了系统变量 tidb_mem_quota_analyze控制 TiDB 更新统计信息时的最大总内存占用。

如果OOM 问题发生时间附近，tidb session 的并发度过高或者某些节点的连接数过多。

需要扩容或优化负载均衡策略。

查看执行计划，如果发现存在算子 HashAgg 处理大量数据。

HashAgg 是多线程并发执行，虽然执行速度较快，但会消耗较多内存，可以尝试使用 STREAM_AGG() 替代。

如果出现 OOM 问题时段附近，业务访问有大事务或大写入，导致消耗太多内存。

tidb server 在执行事务时 TiDB 进程的内存消耗相对于事务大小会存在一定程度的放大，最大可能达到提交事务大小的 2 到 3 倍以上。

所以针对单个大事务，可以通过拆分的方式调小事务，可能需要和业务沟通调整程序。

排查和调整 tidb server 的配置参数

设置单条 SQL 使用的内存上限。

可以调整 session 级别参数 tidb_memory_quota_query 参数限制单条SQL语句的内存使用量，默认值为1GB。

设置单个 tidb-server 节点使用的内存上限。

v6.5.0以后可以通过系统变量 tidb_server_memory_limit 设置 tidb-server 实例的内存使用阈值，默认为总内存的80%。

TiDB 会在内存用量达到该限制时对当前内存用量最高的 SQL 语句 Cancel，然后会尝试调用 Golang GC 立刻回收内存，以最快速度缓解内存压力。

一次只能 Cancel 一条 SQL 语句。如果 TiDB 完全 Cancel 掉一条 SQL 语句并回收资源后，内存使用仍然大于该变量所设限制，TiDB 会开始下一次 Cancel 操作。被强制终止的 SQL 操作会向客户端返回报错信息Out Of Memory Quota!。

使用系统变量 tidb_mem_oom_action 来控制单条查询超过内存限制后所采取的操作是 CANCEL 还是 LOG。

CANCEL 则会中断查询并打印相关日志。

LOG 则不会中断查询，仅仅记录相关内存使用信息。

设置数据落盘

HashAgg 落盘功能目前不支持 distinct 聚合函数。使用 distinct 函数且内存占用过大时，无法进行落盘。

当 SQL 的内存使用超过 Memory Quota 时，tidb-server 可以通过落盘执行算子的中间数据，缓解内存压力。可以启用临时磁盘 oom_tmp_storage ，指定路径tmp_storage_path 和使用外部磁盘的空间上限tmp_storage_size。

当包含 HashAgg 算子的 SQL 语句引起内存 OOM 时，TiDB 默认不触发落盘，可以通过设置系统变量 tidb_executor_concurrency = 1 来触发 HashAgg 落盘的功能。

如何处理tikv server的OOM问题

非数据库原因

机器内存不足

确认部署 tikv server 的机器操作系统内存是否太少，导致内存不足。开发及测试环境建议值是32 GB+，生产环境建议值是 64 GB+。

https://docs.pingcap.com/zh/tidb/v7.4/hardware-and-software-requirements

集群混部问题

排查是不是部署过多的实例节点，如果节点个数太多也容易引起 OOM。可以考虑通过增加cgroup策略来进行资源划分。

排查 tikv server 是不是和 tidb server 混合部署，如果是也有可能会有内存相互挤兑从而触发 OOM 问题。可以考虑通过增加cgroup策略来进行资源划分。

确认是否有业务进程混合部署，导致内存资源挤兑。其他进程占用过多内存，也可能会导致系统误杀 tikv 进程。应该专机专用，不部署业务程序。

数据库原因

排查 block cache 参数配置是否合理。通过查看 TiKV Detail -> RocksDB KV -> Block cache size 面板查看内存使用变化。

如果是block cache的问题，则合理调整storage.block-cache.capacity参数大小，默认为系统内存的45%，通常可以设置范围为45%-60%，配置过高导致容易OOM。如果是多个节点同时部署的时候，尤其要注意该参数的配置，可以设置 storage.block-cache.capacity = (MEM_TOTAL * 0.5 / TiKV 实例数量)。

https://docs.pingcap.com/zh/tidb/stable/hybrid-deployment-topology

在 v6 以后的版本支持在MySQL终端在线修改该参数set config tikv xxxx=xxxx （推荐）；或者tiup cluster edit-confg xx 编辑修改再reload重启tikv实例。

确认是否因为读取大量数据导致 OOM 。查看 tikv details 的copprocessor 面板，以及查看 node-exporter的network面板查看 gRPC的网络传输量，确认是不是远远小于copprocessor读取的数据量。

如果是 copprocessor 读取大量数据而gRPC来不及消费传送到TiDB server，说明有大 SQL 出现导致 copprocessor 读取大量数据到 tikv 的 block cache 中而 gRPC 来不及消费传送到 tidb，会导致数据堆积过多而 OOM。此时可以采取下面的处理措施：

优化SQL使得一次性不读取大量数据。

如果机器使用的是千兆网卡，则建议升级为万兆网卡。

对于 TiKV OOM 的分析，社区里 h5n1 大佬的这篇文章也非常推荐阅读 https://tidb.net/blog/ab528ebf 。

总结

TiDB 出现 OOM 问题，最频繁的节点是在 tidb server 中，而引起问题的最多原因是因为大 SQL 或执行计划不准。

而 tikv 出现 OOM 的问题，大多数是因为 block cache 配置问题引起，在部署和排查时可以重点关注该方面问题。

我们在日常运维管理工作中，针对这些场景有一定的提前规划和准备，即可从容应对大部分的 OOM 问题。

社区也有不少很不错的 OOM 排查实践案例，在遇到问题时可以一并参考。

标签：TiDB 数据库 pingcap 数据库管理

TiDB OOM问题分析的最佳实践SOP

是不是OOM问题？

OOM原因是什么

OOM如何处理

如何处理tidb server的OOM问题

如何处理tikv server的OOM问题

总结

黄东旭解析 TiDB 的核心优势

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20