生产环境 TiDB 集群混合部署的实践经验

网友投稿 690 2024-04-10

【是否原创】是

【首发渠道】TiDB 社区

【首发渠道链接】其他平台首发请附上对应链接

【正文】

一、背景

由于各种场外因素导致我们不能自由选择的理想硬件环境，加之目前单台物理机的硬件配置往往都高于需求，为了更合理地规划资源，很多时候一台服务器不能够“奢侈地”只部署一个实例，而是会考虑单机多实例部署 TiDB 或者 TiKV。这就需要在现有的环境中尽可能地搭建满足高可用、高性能的TiDB集群。本文主要分享一次实际生产环境中混合部署TiDB集群的过程，供大家参考。

二、硬件配置

10台物理机，每台配置均为56C 384G 4块2TB NVME硬盘。监控、HA等机器使用虚拟机即可，因此不算在采购预算内。

配置达标，但是由于种种因素原本预计装一个集群的硬件需要混合部署2套集群。

三、集群拓扑规划

集群1

实例IPTiDB & PD10.0.0.1TiDB & PD10.0.0.2PD10.0.0.310.0.0.4Tikv *210.0.0.5Tikv *210.0.0.6Tikv *210.0.0.7Tikv *210.0.0.8Tikv *210.0.0.9Tikv *210.0.0.10

集群2

实例IP10.0.0.1PD10.0.0.2TiDB & PD10.0.0.3TiDB & PD10.0.0.4Tikv *210.0.0.5Tikv *210.0.0.6Tikv *210.0.0.7Tikv *210.0.0.8Tikv *210.0.0.9Tikv *210.0.0.10

如果拆解成单独的集群，他们的架构应该是这样

但是实际上是混合部署，那么他们的架构应该是这样

四、集群label规划

集群1拓扑tikv配置labels规划为：

集群2拓扑tikv配置labels规划为：

设置 PD 的 location-labels 配置：

location_labels = ["zone","rack","host"]

五、总结

本次操作是想在目前服务器数量不变的情况下尽可能做到高可用，但是由于成本等多方面因素并没有选择异地容灾及同城多机房容灾方案，所以选择了该混合部署方案。

HA本身的可用性：

haproxy+keepalived实现ha的高可用。

PD server及TiDB server的可用性：

由于pd和tidb是混合部署的，所以这里放在一起说。10.0.0.1-10.0.0.0.4为2套集群tidb和pd混部，从架构图中可以看到，任意一台服务器宕机，都最多只影响一套集群内的一个tidb节点和一个pd节点。同一套集群内tidb节点仍有一个可用，pd节点剩余2副本，tidb和pd都满足高可用。

TiKV server的可用性：

为了在具有相近物理位置的 TiKV 上只放置一个副本，PD可以根据 TiKV 的物理位置进行最优调度以尽可能的提高 TiKV 集群的可用性。我们都知道 Raft Group 副本数选择为3的 TiKV 集群可以容忍一个节点宕机而不丢失数据且正常提供服务。一个集群同时有两个 TiKV 节点宕机可以通过合理规划让同时故障的两个 TiKV 出现在同一个隔离区的概率变高来提高可用性。本次部署同样选择为3副本，服务器10.0.0.5（host1）和 10.0.0.6（host2）在一个机柜，10.0.0.7（host3）和 10.0.0.8（host4）在一个机柜，10.0.0.9（host5）和 10.0.0.10（host6）在一个机柜，根据上面的规划，虽然一台服务器上有2套集群的各2个TiKV实例，但是PD知道哪些TiKV节点在同一台服务器上，也知道哪些服务器在同一个机柜上。PD 在副本调度时，会按照 label 层级，保证同一份数据的不同副本尽可能分散，至少能够保证任一服务器宕机2套集群的TiKV均可用。也可以设置isolation-level参数来进一步加强对 TiKV 集群的拓扑隔离要求。任一机柜故障后，例如10.0.0.5和10.0.0.6同时宕机，由于2套集群中这两台服务器都只存放一个副本，TiDB 集群依然是可用的。

第一次发文章，希望能对各位大佬有帮助，实际部署也是很早之前了，如果有不严谨或者纰漏的地方也请见谅。

参考文章：https://tidb.io/blog/8f2a6d62

标签：TiDB 高可用性异地容灾

生产环境 TiDB 集群混合部署的实践经验

一、背景

二、硬件配置

三、集群拓扑规划

四、集群label规划

五、总结

黄东旭解析 TiDB 的核心优势

麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践

高成本云服务？TiDB 帮你省钱

推荐文章

HTAP 还可以这么玩？丨TiDB 在 IoT 智慧园区的应用

新特性解析丨TiDB 资源管控的设计思路与场景解析

TiDB赋能保险业-首个全栈自主核心保单系统成功投产

首个云原生、分布式、全栈国产化银行核心业务系统投产上线丨TiDB × 杭州银行

TiDB 在社交场景的解决方案实践

电商数据技术栈，在海量数据增长下如何实现实时与全量兼得？

金融行业数据库的选择

TiDB 在智能制造中的应用实践

TiDB 在全球头部物流企业计费管理系统的应用实践

PingCAP与教育部教育管理信息中心合作，推动普惠教育数字化转型

友情链接

热评文章

TiDB 中标杭州银行核心系统数据库项目

TiDB 首批通过信通院 HTAP 数据库基础能力评

PingCAP 与 Wisconsin-Madiso

PingCAP 成为中国唯一入选 Forrester

TiDB 走进东软集团，共建医疗数字化基石

共享开源技术，共建开放生态丨平凯星辰余梦杰出席 20

生产环境 TiDB 集群混合部署的实践经验

一、背景

二、硬件配置

三、集群拓扑规划

四、集群label规划

五、总结

微信扫一扫：分享

推荐文章

友情链接

热评文章