麒麟v10 上部署 TiDB v5.1.2 生产环境优化实践
809
2023-04-28
有效应对*** EPM系统宕机 这些重点你get了吗?
导致***企业绩效管理系统宕机的原因有很多。有效应对*** EPM系统宕机,有哪些防患于未然的技巧需要掌握呢?
企业正在日益扩大对企业绩效管理系统(EPM)的部署规模,以获得更广泛的用户基础。EPM 应用程序可以帮助他们在企业范围内共享财务信息,对业务成果进行全面的分析,这不仅限于财务部。使得这些系统对于企业来说,比以往任何时候都显得重要。本文将讨论*** EPM 系统如何实现高可用性和容错,如何预防宕机。以及一旦出现宕机,如何有效缩短宕机时间,并从宕机中快速完成系统恢复。
想要构建一个高可用性的EPM系统,首先需要设立你所要求的服务级别。这个过程包括,检查和评估不同类型故障的发生概率,评估业务系统对这些故障所导致的停机时间和数据丢失的容忍程度等。填写一个像下图所示的简单表格,可以帮助你文档化业务系统对EPM服务水平的要求。例如,你可以创建一个如下图所示的表格,它包含两个针对特定故障的服务水平指标:一个是恢复点目标(RPO),规定可容忍数据丢失的最长时间,另一个是恢复时间目标(RTO),是恢复数据所需时间的量化指标。
*** EPM 系统服务水平需求量化表格示例
现在让我们来看看一些常见的故障类型,以及应对这些故障所需的步骤,以避免或最大限度地减少其对*** EPM系统的影响,以便系统能够达到你所需的服务水平。
数据损坏。大多数EPM系统故障是由于人为错误导致的,这意味着数据损坏是最常见的一种故障。周期性的数据备份可以应对数据损坏的问题。
Hyperion的产品线是*** EPM套件的基石。Hyperion的生命周期管理工具可以被脚本化,它可以定期备份安全设置、应用程序、数据、报告和其他EPM组件。脚本需要人为的维护和监控,因为他们可能需要不断的调整,以适合应用程序的不断变化。
备份EPM服务器本身,以防止操作系统层的损坏,这同样十分重要。此外,关系数据库存储也要进行备份,以预防损坏问题。
时机也非常重要。数据库、操作系统和文件系统需要在同一时间点进行恢复。你需要为恢复计划协调系统、数据库和Hyperion安全程序,以确保平台的一致性。
硬件故障。服务器硬件故障通常并不太常见,但并不是完全不会出现。处理因硬件故障而引起的系统宕机,一个常见的策略是使用服务器集群,它可以在发生系统故障时,完成相应的服务处理。有两种不同类型的集群:active-active集群和active-passive集群。
在active - active集群中,服务器被配置为在多个服务器间分发工作负载,所有这些服务器在同一时间运行相同的服务。这样做的目的是实现负载均衡。通常,一个物理负载均衡器作为集群的单一入口,它在服务器间负责分配处理资源的请求。如果一台服务器发生故障,其余的节点都将继续正确运行。active - active集群通常用于*** EPM产品的网络层。
然而在某些情况下,*** EPM套件并不支持多个active-active负载平衡组件。在这些情况下,需要一个active-passive 集群。在active-passive集群中,同一时间上,只有一个服务器在处理服务。如果它发生故障,备用服务器会探测到故障,开始处理服务,恢复系统运转。active-passive集群在EPM系统的数据层是十分常见的,它类似于用于支撑Hyperion部署的Essbase多维数据库。
数据中心故障。参照目前可用的技术,有很多方法来预防数据中心的整体故障。方法之一是经常导出EPM产品生命周期管理到另一个数据中心灾难恢复实例。这个过程可能会比较复杂,需要大量的脚本、自动化和维护操作,但对于不具备昂贵数据复制技术,但对停机时间有严格要求的用户,上述方式十分常见。
对于那些对停机时间要求严格的用户,在两个数据中心之间,可使用复制软件来实现系统同步。这意味着在数据中心发生故障时,几乎不会丢失数据。但其缺点是,复制软件的成本过高。
通过质量保证预防故障
防患于未然,才是应对宕机最好的方式。一定要建立严格的质量控制体系,对于开发人员,测试人员和其他EPM项目参与者,根据其相应的安全访问权限,制定明确的角色职责体系。质量控制还提供了一个框架,用于在产品投入使用前进行适当的测试。此外,质量控制还会建立对应的工作流,审批,审计跟踪,退出程序,通过/失败等质量保证流程。
对Hyperion进行适当的管理和维护也是非常重要的。和任何其他的系统一样,每天,每周,每月都需要完成一些周期性的任务,以实现对*** EPM系统的适当调整。这些任务包括日志轮转。文件系统清理,系统健康监测,灾难恢复测试和性能监控等。
EPM系统监控和安全
当然,世界上所有准备和预防流程都不能完全的消除故障。但你需要对这些突发事件有所准备,并确保你具有应急预案来检测故障并作出快速反应。
问题检测是尽可能缩小宕机时间的关键。有很多商业或免费软件可用来监控EPM系统健康情况。这些软件包可以检测故障,并立即通知适当的人来解决,有时甚至是在用户意识到这个问题之前。
此外,可以为相应的事件设置报警,在这些事件引发真正的的中断之前发出预警信息。一般需要设置报警的事件包括响应时间慢,磁盘空间不足,一些服务系统日志中的错误和CPU或内存利用率过高等。
安全是每个行业CIO们的首要任务,这毋庸置疑。*** EPM系统通常用于保存敏感且机密的财务数据。安全流程和安全工具需要在系统的每个层面都得以落实。这些过程包括密码强度和密码轮换策略,操作系统强化、网络防火墙、隔离级别,连续入侵检测和数据加密等,无论在数据传输过程中还是在系统空闲时,上述这些手段都在持续发挥着作用。
这些内容听起来可能有些复杂,但这些措施都需要你承担的成本。不过如果你什么也不做,你所付出的成本将会更加不可估量。在大多数情况下,用在保护相关业务数据,硬件和数据中心设施上的成本明显低于EPM系统故障和产生的数据丢失时对于企业造成的损失。什么都不做的代价对企业来说,是非常昂贵的
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。