数据中心灾难恢复:业务连续性的必要措施

时间:2024-07-30
来源:千家网

从短信和流媒体服务到关键的政府、教育和医疗保健应用,数据中心为我们日常生活提供了便利。随着世界比以往任何时候都更加依赖数据中心,确保这些设施保持安全和正常运行至关重要。因此,数字基础设施组织必须制定强大的数据中心灾难恢复计划。

640 (1).png

什么是数据中心灾难恢复?

尽管在避免数据中心在建设阶段停机,以及在运行后通过备份和辅助电源方面已经取得了进展,但数据中心仍然容易受到不可预见的情况的影响,包括自然灾害、人为错误和网络攻击。

尽管不可能预防每一场灾难,但组织必须尽一切努力做好最坏的准备。确保数据中心做好应对意外情况的准备的最佳方法是制定一个强大的数据中心灾难恢复计划。

数据中心灾难的类型

停电

停电通常是数据中心停机和系统故障的主要原因。这可能导致重大损失,无论是收入还是客户信心。企业越来越多地转向混合提供商和云服务,以确保其数据由冗余系统备份,并限制受潜在停电影响的客户数量。

人为错误

人都会犯错,因此这是不可避免的,但在数据中心运营商可能遇到的灾难中,人为错误的风险可以通过采取正确的预防措施大大降低。

过去三年,近40%的组织因人为失误而遭遇过重大中断。在这些事件中,85%的原因是工作人员未能遵守程序,或流程和程序本身存在缺陷。

人为错误的例子包括意外断开电源、电路过载或不安全的结构设计。

网络攻击

虽然停电、结构损坏和人为错误是造成许多数据中心灾难的原因,但包括勒索软件在内的网络攻击也是数据中心面临的主要威胁,而且这些网络攻击的代价同样高昂。根据报告显示,2022年全球三分之二的组织遭受了网络攻击,业务因攻击而平均中断五天。

为什么数据中心需要灾难恢复计划

面对众多运营风险,灾难恢复计划可以说是应对数据中心紧急情况的最重要的一步。

一个真实事件很好地说明了这一点:2021年10月15日,韩国两大科技公司KakaoCorporation和NaverCorporation发生火灾。虽然Naver能够相对较快地启动并运行其服务器,但Kakao的服务器却瘫痪了数小时,导致用户突然无法使用他们的消息平台、支付应用或拼车服务,从而遭受广泛而严重的中断。

重要的是,尽管Kakao确实制定了灾难管理协议,但该协议并未考虑到火灾发生时的断电情况,从而延缓了服务恢复工作。从这一事件中吸取教训后,Kakao成立了一个预防再发委员会,以防止类似事件再次发生。

数据显示,企业越来越认识到灾难规划的重要性,近90%的组织都有某种形式的灾难恢复计划。然而,与此同时,大多数受访者(70%)只将很少的预算(0%-10%)分配给灾难恢复规划。一个问题是,灾难恢复规划主要是IT工作者的责任,很少直接向高管汇报。

灾难恢复计划对高管层的可见性有限,只有41%的灾难恢复计划负责人向高管层汇报。不过,在今年的调查中,我们看到同样多的受访者表示,灾难恢复负责人的下属比高管层低两个级别,这一比例比我们上次调查中的26%大幅增加。在组织中提升这一职位可以加强与整体业务需求的一致性,并增加获取资源的机会,以确保关键业务的技术弹性。

面向未来的数据中心建设

虽然无法预防自然灾害,但数据中心开发商正在设计更能抵御极端天气、火灾和地理要求的设施。

每个数据中心的设计都必须考虑到其所在地的具体地理位置,研究最佳建筑材料、施工技术和设施布局,以抵御自然灾害力量,同时遵守IBC2003规范。

设计冗余电源和冷却系统,以便在暴风雨中也能继续运行。结构分析验证了定制的建筑材料、施工方法和布局,以抵御极端风力和隆起。所有支持设备(包括发电机等)都在数据中心内部,这意味着内部设备受到保护。

制定数据中心灾难恢复计划

确定数据中心的关键任务服务

在制定灾难恢复计划时,了解哪些服务是关键任务至关重要。一些企业处理灾难恢复的一种方式是通过弹性和可靠性实践,这允许组织通过包括异地备份来从中断中恢复,这可能具有用于故障转移的辅助基础设施。

考虑成本

不仅要考虑停机或结构损坏的成本,还要考虑数据中心服务对谁的影响,以及自然数据中心灾难对当地社区意味着什么。

数据中心灾难可能会破坏当地社区服务,如政府职能、公用事业、医疗保健和互联网接入,灾难恢复计划应考虑对公民生活的直接和间接影响,并提供应急计划,以便在停电期间实现基本的社区功能。灾难恢复计划应考虑在灾难期间提供替代的社区‘接入点’,例如WiFi连接的灾难恢复中心,公民可以在那里提出索赔并与亲人联系。运营商应与当地官员协调灾难恢复计划。”

实施安全最佳实践

在网络安全方面,随着攻击者的攻击方法越来越复杂,数据中心IT必须通过定期备份、端点保护、频繁渗透测试和持续的员工培训来加强安全实践。

备份数据是灾难恢复的关键挑战之一。数据中心运营商可能会选择基于SaaS的备份,从而限制对本地服务器管理的需求。SaaS数据托管在线,可从任何地方访问,从而确保在设施无法访问的情况下继续运营。基于SaaS的备份提供固有的灾难恢复,因为SaaS数据存储在远程,可提供冗余。SaaS提供商管理底层基础设施和灾难恢复,减轻组织的负担。

制定灾难恢复计划

数据中心灾难恢复计划应根据组织的特定需求进行量身定制,制定全面计划后,组织必须确保所有关键数据中心员工都了解宣布紧急情况的协议。此外,组织必须经常测试其事件响应和灾难恢复计划,其中可能包括模拟灾难场景。除了建立一个灾难恢复设施,以便在发生大规模中断时转移关键服务之外,还应关注其事件响应程序。