麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践
747
2023-12-05
自动化运维平台应该如何发展
运维过程中实时计算、离线计算、在线服务等各种场景有什么差异,自动化运维平台如何发展才能适应各种场景。
1、实时计算要求的SLA是秒级,离线计算要求的SLA是分钟或小时级,而在线服务要求的SLA是毫秒级,同时,三者对于容灾方式和资源利用率也存在差异。
2、系统的资源利用率和稳定性之前其实存在着一定的矛盾,提升资源利用率,意味着可能触发更多的异常问题,给系统稳定性带来影响。
3、运维平台和运维架构的考虑,要从底层运行环境、存储层、调度层、引擎贯穿到开发平台和应用,要考虑业务运营管理、服务管理和硬件管理。
4、运维工具平台的发展应该逐步走向产品化,建立统一的运维规范和模式,具备可持续集成能力和对自动化操作支持的能力。
5、STACK管理针对特定版本的服务集合,可执行多个服务的同时升级;配置管理要支持机器配置分组,配置代码化。
6、自动化方案包括集群的自动化扩容,服务的自动拉起和维持;通用接口应该具备完善的REST API,支持各级操作。
7、自动化平台应该支持SERVER的HA架构,采用云数据库保障数据安全,增加配置的REVIEW流程保障配置的正确,从而使整个平台更加稳定。
如何理解大数据平台的运维需求
需求决定架构,对于运维来说也是一样;因此,探讨一个运维平台应该怎么样构建,要看具体的需求再决定。
1、大数据的基础服务,包括传输系统(Flume和Kafka),计算调度(Yarn和K8S)以及存储系统(HDFS和HBASE)。
2、大数据平台的配置与运维需求包括:配置管理与资产管理,可监控、可报警;可执行批量作业; 如果还有点期待就是Ai更好。
3、自动化运维的架构,应该足够简单,开源可修改;解决非专业运维团队的专业运维问题。投入产出比高,架构简单,一个系统迭代容易打造精品。
4、其中配置管理应该具备多数据中心支持,动态管理的成员关系,基于gossip协议的事件传输。基于轻量型CMDB系统,解决传统CMDB无法动态变更,自动发现,状态探测问题。
5、批量作业平台,要解决运维中高频的批处理任务,确保到达率很稳定,很可靠;尽量引入原生支持的组件,减少开发的工作量。
6、DNS一直是基础运维的核心,也是所有业务的重中之重。因此,自动化运维平台要将DNS的服务器及客户端纳入统一的管理。
7、自动化运维应该让产品、运营轻松掌控海量数据,就像操纵Excel那样轻松;让数据更加开放,让更多人通过数据去决策。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。