|
一般来说,灾难的发生是不可避免的,只是机率有大有小,而灾难备份是一个持续性的工作,会伴随业务正常运行的整个生命周期,绝不可以因为建立了灾难备份系统或灾难备份中心就认为万事大吉了。
灾难备份的定义
引起灾难的因素很多,目前,对灾难的定义众说纷纭,没有统一的认识,我们将灾难定义为部分或全部的计算机软硬件设备、附属设备、文档表格或机房环境损坏以至于严重影响数据处理中心正常运行的事件,它可能由于自然灾害、突发事件、设备故障及人为因素等造成。灾难备份是指利用技术、管理手段以及相关资源确保既定的关键数据、关键数据处理系统和关键业务在灾难发生后可以恢复的过程。
灾难备份的主要技术
一个完整的灾难备份系统主要由数据备份系统、备份数据处理系统、备份通信网络系统和完善的灾难恢复计划所组成。在灾难备份系统建设中,数据备份是关键,如何将数据(包含系统、应用和业务等数据)完整地实时复制到灾难备份中心,是我们企业灾难备份建设中需要重点考虑的事项。如今随着IT技术不断发展,灾难备份技术日趋成熟,有多种数据实时复制技术可供我们选择。
目前有两种主要的方式,一是基于磁盘系统的硬件方式灾难备份技术,二是软件方式的灾难备份技术。
1. 基于磁盘系统的灾难备份技术
基于磁盘系统的远程数据备份技术是以磁盘系统为基础,利用磁盘控制器提供的功能,采用磁盘镜像技术在物理磁盘卷级上实现两地磁盘机之间数据的复制。这种方式独立于主机和主机操作系统,不占用主机CPU、主机通道和网络资源,对应用透明,不需要对现有应用系统做任何改动和变化。为在保证数据的即时性、完整性和系统性能之间的平衡,基于磁盘系统的远程数据备份主要有两种工作方式:
同步数据复制模式:来自处理器的更新数据在被写入本地连接的磁盘系统之前,通过磁盘镜像技术,将更新数据转发至异地的磁盘系统,只有更新数据在两个磁盘系统完好写操作后,本地磁盘系统才会向处理器返回一些写完成指令,从而确保了两地磁盘系统数据的一致性和完整性,无数据丢失。在同步数据复制模式下,应用系统会因等待写I/O操作完成而被延迟。
异步数据复制模式:来自处理器的更新数据首先被写入本地连接的磁盘系统,并立即向处理器返回一个I/O写完成指示,其后磁盘镜像系统在很短的时间内,将更新数据发送至异地的磁盘系统。异步数据复制模式对应用程序性能影响最小,但远程磁盘系统的数据和本地磁盘系统相比有一个延迟。
磁盘镜像数据复制支持几乎所有的主机平台,如:IBM S/390、IBM RS/6000、HP、SUN、DEC等,能够有效地实现操作系统、程序、数据库和文件系统的复制功能。
2. 基于软件方式的灾难备份技术
软件方式的灾难备份技术是操作系统级的灾难备份解决方案,它与操作系统平台相关,但对应用程序透明。它通过通信网络,实现数据在两个不同地点之间的实时备份。下面,针对不同的系统平台分别介绍软件方式的灾难备份技术:
S/390平台的软件方式灾难备份技术: 对于IBM S/390平台,GDPS(异地并行耦合系统,全称为Geographically Dispersed Parallel Sysplex),是目前S/390平台较为完善的灾难备份技术。GDPS将IBM S/390的并行Sysplex技术与磁盘系统远程数据复制技术(PPRC或XRC)集成在一起,并通过多系统耦合技术,组成一个完整的灾难备份与恢复整体解决方案,从而使得客户的生产系统在灾难发生情况下能快速恢复。
AS/400平台的软件方式灾难备份技术: 对于AS400平台的灾难备份技术,一般是利用AS400的数据库日志和目标日志,通过一定的数据备份技术,将更新的日志实时传送到远程异地AS400上,不断更新异地AS400上的数据库和目标,从而使灾难备份中心可实时拥有一套完整的可供灾难恢复的数据库和应用系统。
目前业界有两种主要的热备份产品,一是LakeView公司的MIMIX产品,二是VISION Suite公司的OMS/400产品。这两种产品不仅具有本地的双机实时热备份和灾难恢复功能,还被广泛地用来实现本地或异地的一对一、一对多的备份形式,实现多台AS400的相互数据镜像。
其主要的技术特点有:
i.备份数据的实时更新,保证数据及时、完整、可用;
ii.满足不同距离的灾难备份要求;
iii.迅速恢复业务处理系统,保证业务连续运作;
iv.提供灵活快速的备份通信网络系统。
UNIX平台的软件方式灾难备份技术: UNIX平台的软件方式灾难备份技术,独立于硬件存储设备,利用软件的复制功能特性,提供逻辑卷级和文件系统级的远程数据复制能力。它可通过IP网络将数据及时地复制到异地灾难备份中心,确保用户备份数据的及时性和完整性。如同时结合相应的灾难恢复软件功能,一旦电脑中心发生灾难,则灾备中心的主机可自动(或手动)接管电脑中心主机的运行并提供服务,从而确保了业务连续性,把意外灾难造成的损失降至最低。
UNIX平台的软件方式灾难备份技术的主要特点如下:
-
支持数据在两个地点(site)之间实时镜像,两地点之间距离没有限制;
-
支持所有数据库和文件类型,对应用程序明;
-
数据复制基于TCP/IP网络;
-
只复制实际发生变化的数据;有效地利用网络资源,并使数据复制通信量降至最低水平;
-
无论是同步模式还是异步模式,都能确保备份数据的完整性;
-
灾难发生时,在备份地点可自动恢复应用。
3. 其他灾难备份技术解决方案
此外对于数据的远程复制,还有如下数据远程复制技术解决方案:
通过磁带库技术实现数据远程备份解决方案
ORACLE、Sybase公司的数据库镜像技术解决方案
灾难备份的另外一个核心技术是数据的存储备份技术。其中,存储优化是提高灾难备份系统性能的重要指标之一。
目前,比较通用的优化技术有DAS(Direct Attached Storage直接连接存储)、NAS(Network Attached Storage,网络连接存储)、SAN(Storage Area Network,存储区域网络)。
灾难备份建设的流程
1. 建立灾难备份专门机构
实施灾难备份应由董事会或高级管理层决策,指定高层管理人员组织实施。由科技、业务、财务、后勤支持等与灾难备份相关的部门组成专门机构,主要职责为:
-
分析灾难备份需求,制定灾难备份方案;
-
确定工程预算,监督工程实施;
-
明确各部门的职责,协调各部门关系;
-
对灾难恢复计划定期进行测试和评估;
-
对测试和评估的结果进行审核和存档并做出相应的改进。
2.分析灾难备份需求
重要信息系统灾难备份需求分析应包括对数据处理中心的风险分析和对重要信息系统的业务分析,以确定灾难恢复目标。
数据处理中心风险分析
业务分析
确定灾难恢复目标
-
确定恢复业务品种范围及优先级。
-
确定灾难备份中心及服务界面的恢复时限。
-
确定需要恢复的服务网点和服务渠道。
3.制定灾难备份方案
灾难备份方案可以分为七个等级。一个完整的灾难备份方案的设计基于灾难备份需求分析所得出的各业务系统灾难恢复目标,它可能涉及多个级别的应用,并且需要考虑技术手段、投资成本、管理方式等多方面因素,主要内容包括:
数据备份方案
根据灾难备份需求分析所确定的业务恢复时间和交易丢失程度确定对数据备份的要求。根据应用的重要级别、最大停顿时间、数据传输量、最大数据丢失度、数据相关性、应用相关性确定数据备份的方案。
备份处理系统
灾难备份应根据重要信息系统灾难备份需求配置相应的备份处理系统:
灾难备份中心建设
灾难备份中心是配备了各种资源以在灾难发生时接替数据处理中心运行的计算机处理中心,重要信息系统可采用自行建设、联合建设和租用商业化灾难备份中心的模式。
规程与管理制度
重要信息系统需要制定有关灾难备份与灾难恢复的各项规程和管理制度,同时修改数据处理中心原有规程和管理制度以确保灾难恢复的成功,这些规程和制度包括数据备份日常管理制度、备份数据保存制度、灾难备份切换流程、灾难备份系统变更管理规程以及人力资源规程等。
4.实施灾难备份方案
实施灾难备份方案的主要目标是按照所制定的灾难备份方案,完成灾难备份工作。实施过程中,要严格按照灾难备份方案的要求和内容进行,要落实相应的规章制度,要应用灾难备份方案,建设并运行灾难备份中心。
5.制定灾难恢复计划
制定灾难恢复计划的主要目的是规范灾难恢复流程,使重要信息系统在灾难发生后能够快速地恢复数据处理系统运行和业务运作;同时重要信息系统可以根据灾难恢复计划对其数据处理中心的灾难恢复能力进行测试,并将灾难恢复计划作为相关人员的培训资料之一。
6.保持灾难恢复计划持续可用
在灾难恢复计划制订后,为保证计划的可用性和完整性,需要制订变更管理流程、定期审核制度和定期演练制度。
工作底稿
对重要信息系统现有的数据处理中心信息处理系统配置、恢复时间、恢复范围等进行确定以形成工作底稿,详细列明数据处理中心需要进行灾难备份的主机、附属设备、系统软件、数据库软件、应用软件、网络设备配置清单;同时列明数据处理中心服务对象的终端设备、网络及附属设备的硬件配置、系统版本和应用软件清单。
变更流程
重要信息系统应建立变更机制以控制数据处理中心和灾难备份中心的变更,所有的变更对灾难恢复计划的影响均应得到评估。这些变更包括:操作系统变化、新增应用软件、硬件配置更改、网络配置或路由更改等。因此,须要制订完善的变更管理流程,保证灾难恢复计划的修改与变更事项同步进行。
维护和评估
灾难恢复计划需要由各相关部门定期进行审核和更新以保证其完整和有效,(分内部审核、外部审计)灾难应变小组负责人负责组织审核工作,各相关部门参与。内部审核工作应至少每六个月进行一次,审核的结果应报主管领导,并对不足之处加以改善。
外部审计机构可以接受主管部门委托,对重要信息系统的内部控制状况进行审计,也可以接受聘请对重要信息系统的内部控制做出审计评价;外部审计机构发现重要信息系统内部控制的问题和缺陷,应当及时向主管部门报告。
测试和演练
灾难恢复计划常常因为错误的假设、疏忽或设备及人员的变更而不可用,因此需要经常的测试以保证其及时和有效。测试的另一目的是为了让灾难恢复队伍和有关的人员熟悉灾难恢复计划。
灾难备份等级划分
参照国际灾难备份行业的通行灾难备份等级划分原则,将灾难备份系统从低到高划分为如下七个等级:
等级零:无异地备份
等级零没有在异地保存备份数据,未制定灾难恢复计划,不具备灾难恢复能力。
等级一:备份介质异地存放
等级一是对关键数据进行备份并存放至异地,没有可用的备份中心及备份数据处理系统、备份网络通信系统,未制定灾难恢复计划。
等级二:备份介质异地存放及备用场地
等级二是对关键数据进行备份并存放至异地,并制定相应的灾难恢复计划。具备备用的办公及计算机场地,一旦灾难发生,需要重新调配数据处理系统及网络通信系统资源,利用异地备份数据恢复关键业务系统运行。
等级三:备份介质异地存放及备份中心
等级三是对关键数据进行备份并存放至异地,并制定相应的灾难恢复计划。具备可用的备份中心并配备部分数据处理系统及网络通信系统。一旦灾难发生,利用备份中心已有资源及异地备份数据恢复关键业务系统运行。
等级四:定时数据备份及备份中心
等级四是在备份介质异地存放的基础上,利用通信网络将部分关键数据定时批量传送至异地,并制定相应的灾难恢复计划。具备可用的备份中心并配备部分数据处理系统及网络通信系统。一旦灾难发生,利用备份中心已有资源及备份数据恢复关键业务系统运行。
等级五:实时数据备份及备份中心
等级五是利用通信网络将关键数据实时备份至备份中心,并制定相应的灾难恢复计划;具备连续运行的备份中心和就绪的备份数据处理系统及网络通信系统。一旦灾难发生,可在备份中心利用实时备份数据恢复关键业务系统运行。
等级六:零数据丢失
等级六是利用通信网络将关键数据同步镜像至备份中心,实现零数据丢失,并制定相应的灾难恢复计划。具备连续运行的备份中心和就绪的备份数据处理系统及网络通信系统,且具备完全的网络切换能力。一旦灾难发生,可在零数据丢失的基础上恢复关键业务系统运行。
|