TiDB 生态工具 TiUniManager v1.0.0 体验分享

网友投稿 675 2024-03-25



作者简介:一个从业10年的小小DBA,主攻MySQL,会点Python,会点前端,现在就职于G7,作为业余开发自诩为伪全栈DBA。

TiDB 生态工具 TiUniManager v1.0.0 体验分享

我的个人主页:https://tidb.net/u/G7%E5%B0%B9%E8%A3%95%E7%9A%93/answer 目前还没啥内容,希望随着自己在 TiDB 上的成长,后续的主页越来越丰富

前言

2022年4月22日咱P社开启了 TiDB 6.0 的试用活动,随即我就报了名,毕竟6.0刚发布我就对两个管理平台产生了比较大的兴趣,包括:TiEM(即 TiUniManager), DM WebUI 。

DM WebUI 在6.0刚发布后就体验了一把,整体使用还是很方便的,只是功能还处于实验阶段,官方也不建议上到生产环境,所以浅尝一下也就告一段落了。

TiEM 看介绍是企业版独有的功能,咱公司使用的社区版就没办法了,这次体验活动也给到了 TiEM 的体验,自然需要参与一下,也幸运的得到了体验机会。

这里解释一下为什么有两个名字: -- 2022.6.20

TiEM 已与近日开源,改名为 TiUniManager(https://github.com/pingcap/tiunimanager),所以后续社区版的 TiDB 集群可以用 TiUniManager 来管理

不过我的文章写的比较早,所以我的文章都是叫 TiEM,这个名字和 TiUniManager 等同,请读者同学们了解

介绍

因为我这也是初次接触,这里就直接引用官方文档的介绍了

TiDB Enterprise Manager (TiEM) 是一款以 TiDB 数据库为核心的企业级数据库管理平台,帮助用户在私有部署 (on-premises) 或公有云环境中管理 TiDB 集群。

TiDB Enterprise Manager 不仅提供对 TiDB 集群的全生命周期的可视化管理,也同时一站式提供 TiDB 数据库参数管理、数据库版本升级、克隆集群、主备集群切换、数据导入导出、数据同步、数据备份恢复服务,能有效提高 TiDB 集群运维效率,降低企业运维成本。

分布式数据库管理面临集群规模化、管理场景多元化挑战,传统的命令行管理方式面临部署成本 高、技术门槛高、维护成本高等诸多挑战,TiEM 能有效解决以下场景中的分布式数据库管理难题 :

主机资源管理

部署集群

统一入口管理多套集群

升级集群

参数管理

备份恢复

数据导入导出

安全与合规

自动化与第三方集成

管理任务历史记录可查可追溯

注意:TiEM v1.0.0 支持接管的TiDB集群版本为 5.x,6.0将在TiEM的后续版本兼容

现在开始我的体验过程

安装

先将官方提供的 TiEM 安装包传到我的测试服务器

因为我这是自己的测试服务器,外网流量只有1M,这个上传的过程就耗了我20个小时,真是漫长的等待呀

随后按照官方提供的《TiEM v1.0.0 安装手册.pdf》步骤进行安装,因为文档要求不得传播,这里就不做详细的按照流程了。

下面就贴一下我在安装过程中遇到的报错,虽然用处不是很大,但如果能帮到后面的人排错也是好的

安装完成后启动服务,发现遇到了第一个错误。本身的错误日志还不是很容易看出错误在哪,这是我辗转几个地方后在系统日志中看到的这里的解决方案是: yum install openssl

修复上面呢的问题后,现在又遇到了第二个问题,这次在错误日志中找到了问题这里排查到是信任关系的问题,因为现在 TiEM 服务只安装在一个节点,所以只需要把自己的公钥复制到自己的 authorized_keys 中,并且做一次 ssh 跳转以完成信任关系即可

解决后随后再次启动,这次遇到了第三个问题,也是我的安装过程中遇到的最后一个问题

使用

解决上面一系列问题后,我终于成功启动了 TiEM 服务,现在就开始正式体验这个功能

初始配置

启动后就可以登录 TiEM 管理平台了

默认账号:admin,默认密码:admin

第一次登录有一个欢迎界面,看第一个页面应该是初始的配置引导

第一步看起来是配置数据中心以及各节点配置的

特别注意:这里的区域配置需要保证和 TiDB 集群一致,不然后续会报错。如果现有 TiDB 集群没有配置labels信息,也需要加上才行

第二步是配置各个组件的信息,页面上也只有组件名称和端口可以调整,我这里就选默认的直接下一步了

第三步是选产品版本,看起来目前还不支持6.0的管理,所以我暂时将自己的6.0回退到了5.4版本,因为可以多选我这里就选5.3以上的(TiEM v1.0.1 已经兼容了TiDB 6.0)

经过了引导页面我终于进到了正式页面,一眼就是 TiDB 的风格,使用 Dashboard 比较多看起来这个界面还是挺亲切的

接管集群

我扫了一眼各个面板,可以发现第一步就是需要做上图右上角的两个按钮,选择其中一个生成第一个需要管理的集群,既然我已经有集群了(相信大多数人也是这样),我这里选择接管集群来开始接入我的第一个需要管理的集群

刚进来我就遇到了第1个问题,集群名必须达到4~64个字符,而我的集群名只有3个字符。

这可怎么办呢,最快的方法就是改集群名,我这个是自己的测试机还是随便改的,下面我就开始了集群改名tiup cluster rename yyh tidb-yyh,就在这时我想到如果是正在运行的生产库,并且恰好集群名小于4个字符,这种该怎么处理。我想这还需要官方给一个比较合适的方案才好。

现在所有选项配置好了,点击提交,看起来顺利开始接管了

谁知在这里就遇到了第2个问题,提示 host not found 172.24.74.67 ,我开始怀疑是 TiEM 需要和 TiDB 集群中控机做互信,于是配置了互信,但还是这个结果。一筹莫展之际,于是我考虑到万能的 asktug 上去问问大佬

经过大佬的帮助,终于解决了问题,解决思路已经在帖子里了(https://asktug.com/t/topic/664972 ),我这里总结一下需要注意的点:

1. 一定要导入主机,可以通过主机模板修改好自己的主机信息  2. TiDB 集群要配置labels信息,并且要在 TiEM 的想到中把向导页面(如已跳过可以在点 系统管理 --> 开始向导)中 数据中心 的各个信息配置对  3. 在 TiEM 的中控机执行install -Dm755 /home/tidb/.tiup/bin/tiup /usr/local/bin 注:这里最后的路径参考帖子的第10楼  4. rsa文件的复制操作一定不要漏掉

这里追加我后面遇到的第3个问题,如果接入集群的主机配置都是正确的,但是基本配置里面数据库的root密码输错了,会造成主机导入成功,但是集群没有的情况,这种情况也需要把主机删掉重新部署。 -- 2022.6.15

管理集群

最后我终于顺利的接管了现有集群,可喜可贺

停止和重启

我先来试下一眼可见的停止和重启功能,嗯。。。很实用一键搞定

这里我试了一下用TiEM关闭,执行命令启动;以及直接执行命令关闭。这两种情况下 TiEM 都是没法检测到 TiDB 集群的最新状态的,不知道是我等的时间不够(大约等了10分钟)还是这里没有定时的检测机制

我重新接管了一次集群,把 TiEM 页面显示搞正确,进入集群详情看一下。看这布局和功能,只能说不错的,啥操作都可以一键搞定

现在简单的体验一把这里面的功能

缩容

删除的节点在 TiEM 上显示是没有了,但是任务报错了,在中控机上看删除的节点也是 Down,无法再次启动。这个可能是我哪里没有配置对,也可能是 TiEM 的BUG。这里就先不管他了

扩容

扩容里能选的就是资源分配方式,自动就是系统选择可用的主机加入然后给到合适节点配置;手动是自己选择怎么加新节点,于是我新搞了个没有部署 TiDB 的服务器

克隆集群、数据同步

这个我现在没有多的机器来做了,就忽略了

手动备份

点了以后就可以在备份管理中看到备份进度了,另外也可以在备份管理中设置定时备份

最后我的任务失败了,看备份信息是备份到 TiEM 节点的共享存储,这个应该需要单独配置

性能分析、集群监控、告警管理

这3个功能的面板都是空的没有数据,经排查是需要设置 grafana 的参数,在 [security] 下追加配置allow_embedding = true

我的grafana是部署在69节点,所以进入到69节点的grafana配置文件目录进行修改,编辑/{deploy-dir}/grafana-{port}/conf/grafana.ini 文件,按如下所示修改配置项:

[security] allow_embedding = true

不过如提示调整了参数最终也看不到,现在只能怀疑是服务器之间的网络问题,因为我的测试机网络带宽很小,可能不足以支持监控数据的传输

目前还不清楚解决办法,还是放几张界面截图吧,虽然没有内容

日志管理

可以看到各组件的日志,挺实用

升级

因为我之前装的是5.4,现在 TiEM 最高只支持5.4,所以我重装一个5.3再来操作

我的重装是命令行重装的,TiEM 上面也识别不到集群已经没有了,点删除报了个错然后集群状态变成了异常,只能先不管了。但是新接管的集群还是报错了,旧集群相关的主机也没法删除

无奈呀,我还是重装一下 TiEM 吧。当我打开 TiEM 中控机的时候,聪明的我想到重启一下不就好了吗,毕竟重启可以解决99%的问题。结果可想而知,我还是老实的重装了 TiEM

删除集群

现在把我刚重建的集群删掉,这次直接操作还是很顺利的。值得注意的是删除集群不会把主机删掉,这样下次接管是不是就不用再导入主机信息了

但是我到中控机上查看,集群并没有真正的被删除,只是状态变成了 Down,命令行操作没有再次启动以及其他操作。这可能是防止误操作做的保护措施,保留一下原始信息?

最后是通过强制参数卸载了集群:tiup cluster destroy tidb-yyh2 --force创建集群

从按钮来看目前只能选择轻松创建的选项

导入导出

先来看下导出吧,毕竟只有一个集群

看起来导出也只能导到共享存储上面

第一次报错了,报错信息是我没有装 dumpling,于是我把 dumpling 装上再试一次

结果还是一样的报错,我分别用了tiup安装和直接下载安装包,两种方法都没有效果。因为时间关系我就暂时不体验了,应该就是 dumpling 和 lightling 的功能做了包装,这个能可视化的操作还是很爽的

最后我看了下系统管理中的 系统监控、系统日志、系统追踪。这三个功能也监控不到信息,最开始也是怀疑 grafana 参数的问题,但是我调整了 TiEM 集群的 grafana 参数也没有作用。最终也只能怀疑到是带宽不够,因为最近太忙时间不够的原因,所以暂时没法找解决办法,等后面空了再看。

最后做个总结:

目前来说 TiEM 部署起来还是比较简单的,但也有些小问题。

使用方面:界面还是很清爽,各个功能一眼可见,也基本包含了我们日常运维的所有功能。只是呢,很多功能都还有问题,用的不太顺心。<

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:TiDB 生产集群开启 TLS 加密通讯的挑战与解决
下一篇:TiDB 监控升级与解决 panic 探索之旅
相关文章