TiDB Sysbench 性能对比测试报告 - v5.1.4 对比 v6.0.0 DMR实验结果

网友投稿 706 2024-02-27

1. 背景

目前我们线上 TiDB 集群统一升级到了 v5.1.4 版本，对于 v6.0.0 版本我们有很多期待，本文不会讨论 v6.0.0 的特性，但打算将其性能与 v5.1.4 进行对比，看看它的性能是否有提升。

2. 测试概述

使用 TiUP 部署 TiDB 集群，集群部署规模为 3 TiDB Server、3 PD Server、6 TiKV Server，使用 LVS 作为负载均衡器，Sysbench 测试工具部署在另一台服务器上，作为客户端的压力测试服务器，进行 OLTP 测试。本文主要对 TiDB v5.1.4 版本和 TiDB v6.0.0 DMR 版本进行对比性能测试。

3. 测试环境

3.1 硬件配置

使用 6 台浪潮服务器，硬件配置如下(服务器 IP 已脱敏)：

服务器CPU内存硬盘192.168.1.1Intel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz 128 核256G448GB2 RAID1 + 3.57T6 *** RAID10192.168.1.2Intel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz 128 核256G448GB2 RAID1 + 3.57T6 *** RAID10192.168.1.3Intel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz 128 核256G448GB2 RAID1 + 3.57T6 *** RAID10192.168.1.4Intel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz 128 核256G448GB2 RAID1 + 3.57T6 *** RAID10192.168.1.5Intel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz 128 核256G448GB2 RAID1 + 3.57T6 *** RAID10192.168.1.6Intel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz 128 核256G448GB2 RAID1 + 3.57T6 *** RAID10

备注：每台服务器有 4 个 numa node。

3.2 软件环境

安装的主要软件及其版本如下：

软件名称软件用途版本CentOS操作系统7.4TiDB 集群开源 NewSQL 数据库v5.1.4 / v6.0.0 DMRSysbench压力测试工具1.0.9

3.3 参数配置

两个版本使用相同的配置参数。

3.3.1 TiDB 参数配置

prepared-plan-cache.enabled: true tikv-client.max-batch-wait-time: 2000000

3.3.2 TiKV 参数配置

raftstore.store-pool-size: 4 raftstore.apply-pool-size: 4 rocksdb.max-background-jobs: 8 raftdb.max-background-jobs: 4 raftdb.allow-concurrent-memtable-write: true server.grpc-concurrency: 6 pessimistic-txn.pipelined: true server.enable-request-batch: false storage.block-cache.capacity: "37GB"

3.3.3 TiDB 全局变量配置

set global tidb_hashagg_final_concurrency=1; set global tidb_hashagg_partial_concurrency=1; set global tidb_enable_async_commit = 1; set global tidb_enable_1pc = 1; set global tidb_guarantee_linearizability = 0; set global tidb_enable_clustered_index = 1;

4. 测试方案

通过 TiUP 部署 TiDB v5.1.4 和 v6.0.0。

通过 Sysbench 导入 16 张表，每张表有 1000 万行数据。

分别对每个表执行 analyze table 命令。

启动 Sysbench 客户端，进行 oltp_read_write、oltp_point_select、oltp_update_index 和 oltp_update_non_index 测试。通过 LVS 向 TiDB 加压，测试 10 分钟，每一轮测试中间间隔 5 分钟。

测试完 v5.1.4 版本之后，销毁集群，部署 v6.0.0 集群重新测试。

4.1 初始化数据

执行以下命令来准备测试数据：

sysbench oltp_common.lua --db-driver=mysql --mysql-host=192.168.1.8 --mysql-port=4000 --mysql-db=sysbench --mysql-user=username --mysql-password=password --table-size=10000000 --tables=16 --rand-type=uniform --threads=16 prepare

4.2 测试命令

执行以下命令来执行测试：

sysbench ${test_type}.lua --db-driver=mysql --mysql-host=192.168.1.8 --mysql-port=4000 --mysql-db=sysbench --mysql-user=username --mysql-password=password --table_size=10000000 --tables=16 --time=600 --report-interval=1 --rand-type=uniform --threads=${thread_num} run

5. 测试结果

5.1 Point Select 性能

压测线程v5.1.4 TPSv6.0.0 TPSv5.1.4 95% latency (ms)v6.0.0 95% latency (ms)TPS 提升(%)1502969582912330.750.73-1.93%3004423154506411.31.061.88%6005367905712752.611.966.42%9005459765923524.033.028.49%12005517515951445.374.187.86%15005500865919256.795.477.61%

v6.0.0 对比 v5.1.4，Point Select 性能提升了 5.055%。

5.2 Update Non-index 性能

压测线程v5.1.4 TPSv6.0.0 TPSv5.1.4 95% latency (ms)v6.0.0 95% latency (ms)TPS 提升(%)15072033721483.022.860.16%3001076711088164.253.961.06%6001513181524886.325.770.77%9001769671820778.587.562.89%120019229419665711.049.912.27%150019997820636513.70 12.523.19%

v6.0.0 对比 v5.1.4，Update Non-index 性能提升了 1.72%。

5.3 Update Index 性能

压测线程v5.1.4 TPSv6.0.0 TPSv5.1.4 95% latency (ms)v6.0.0 95% latency (ms)TPS 提升(%)15040980415395.475.091.36%30056463577828.587.72.34%600716887540814.7312.985.19%900801668425220.7418.955.10%1200850669080826.20 24.386.75%1500900399568231.3729.196.27%

v6.0.0 对比 v5.1.4，Update Index 性能提升了 4.5%。

5.4 Read Write 性能

说明： oltp read write 场景测试时使用的压测线程数和前面三种场景有所不同，原因是：当 tidb-server 绑定到 numa node 之后，在并发 600 线程压测时，cpu 使用率就达到了整个服务器 cpu 资源的 25%，即到达一个 numa node 能使用的 cpu 资源的瓶颈了。因此，针对这个场景，单独设计了压测线程数。压测线程v5.1.4 TPSv6.0.0 TPSv5.1.4 95% latency (ms)v6.0.0 95% latency (ms)TPS 提升(%)322521256915.8314.731.90%644360453318.6117.323.97%1286728694323.9522.693.20%2008450857729.7229.721.50%2569311951634.9536.892.20%30098221014240.3742.613.26%

v6.0.0 对比 v5.1.4，Read Write 性能提升了 2.67%。

6. 测试中遇到的问题和建议

6.1 遇到问题

v6.0.0 相比 v5.1.4 在 point select 场景下性能下降严重在测试 point select 场景时，v6.0.0 版本相比 v5.1.4 版本性能下降高达 38% 之多，经过分析是 tidb-server 跨 NUMA 访问内存导致的问题，将 tidb-server 绑定到 numa node 之后重新测试，性能从未绑定时的 -38% 到绑定之后的 5.055%，差异巨大。因此，部署集群时，强烈建议将 TiDB、PD、TiKV 与 NUMA node 一对一绑定，否则测试中可能遇到各种奇怪的问题，详情可以参考文末参考文档中的文章。

在 read write 场景下，并发达到 900 时 TPS 达到瓶颈在测试 read write 场景时，当并发压测线程数为 900 时，v6.0.0 和 v5.1.4 的 TPS 不再增加，但是 latency 增加，像是某种资源达到了瓶颈导致的。经过分析得知：当 tidb-server 绑定到 numa node 之后，在并发 900 线程压测时，cpu 使用率就达到了整个服务器 cpu 资源的 25%，即到达一个 numa node 能使用的 cpu 资源的瓶颈了，此时，如果想获得更高的性能，提升 TPS，需要扩容 TiDB。这里有一个建议：在 OLTP 场景的压测下，要合理设计并发线程数，观察 TiDB CPU 资源使用率，尽量控制 TiDB CPU 使用率在 60% 以下。

TPS 掉底在测试 update non index 场景时，TPS 不稳定，出现掉底现象，经过分析，原因是当 TiKV 绑定到 NUMA node 之后，相应的 storage.block-cache.capacity 没调整，导致 TiKV 出现 OOM 。假设一个 numa node 绑定一个 TiKV 实例，则单个 TiKV 实例的 storage.block-cache.capacity 配置应当小于 (服务器总内存* 0.6) / numa node 个数，否则 TiKV 可能出现 OOM 问题，影响测试结果。

raft store cpu 使用率高 v6.0.0 版本相比 v5.1.4 版本，raft store cpu 和 async apply cpu 的使用率要高点，建议线上使用时可以根据实际情况调整 raftstore.store-pool-size 和 raftstore.apply-pool-size 的个数，避免达到瓶颈，影响性能。

6.2 测试建议

强烈建议 TiDB、PD、TiKV 绑 Numa，压测期间遇到过不绑 Numa 和绑 Numa 相差 5 倍以上的 TPS，在相同并发压测线程数下。

注意分析监控、保留监控，便于对比分析性能瓶颈。

建议先看一遍本文参考文档中的几位大佬写的文章，受益匪浅。

7. 测试小结

测试场景v6.0.0 相比 v5.1.4 提升百分比oltp point select5.06%oltp update non index1.72%oltp update index4.50%oltp read write2.67%

本次测试对比了 TiDB v6.0.0 和 v5.1.4 在 OLTP 场景下的 Sysbench 性能表现。结果显示，相比于 v5.1.4，v6.0.0 在 oltp_read_write、oltp_point_select、oltp_update_index 和 oltp_update_non_index 几种场景性能均有提升，具体内容可以参考上述表格，v6.0.0 版本还是很值得我们期待的。

本文主要测试了在相同硬件和配置下 v6.0.0 和 v5.1.4 的性能，不代表最佳性能实践和部署。

【参考文档】

https://cn.pingcap.com/zh/blog/database-performance-optimisation

https://tidb.net/blog/c2edb2e5

标签：TiDB 数据库 NewSQL pingcap OLTP

TiDB Sysbench 性能对比测试报告 - v5.1.4 对比 v6.0.0 DMR实验结果

1. 背景

2. 测试概述

3. 测试环境

3.1 硬件配置

3.2 软件环境

3.3 参数配置

3.3.1 TiDB 参数配置

3.3.2 TiKV 参数配置

3.3.3 TiDB 全局变量配置

4. 测试方案

4.1 初始化数据

4.2 测试命令

5. 测试结果

5.1 Point Select 性能

5.2 Update Non-index 性能

5.3 Update Index 性能

5.4 Read Write 性能

6. 测试中遇到的问题和建议

6.1 遇到问题

6.2 测试建议

7. 测试小结

微信扫一扫：分享

推荐文章

友情链接

热评文章