您的位置:首页 > 其它

业务连续性管理峰会2007演讲记录

2007-10-28 05:36 399 查看

业务连续性管理峰会2007演讲记录

2007-09-24 13:11 作者: 佚名 出处: 天极Yesky 责任编辑:黄惟冰

  演讲一:从国际标准中看业务持续性管理的发展

  申屠献忠 通标标准技术服务有限公司副总裁

  我曾经参加很多经销商活动,提到最多的就是企业可持续发展,这正是业务连续性管理所支持的。通标标准技术服务有限公司的主要使命就是帮助国内企业更好的了解国内标准和各国贸易壁垒,帮助他们找到解决方案,从而扩大企业的出口份额。我们涵盖的行业包括汽车、环保、农产品、金融等。其中,国际认证部门为政府和企业提供咨询服务,更好的了解国际体系和标准,建立更好的质量保证、环保和信息安全方面的体系。

  良好运行的IT系统对企业至关重要,希望通过今天的交流让大家更好的了解相关国际标准,从而建立有效和适合自身情况的可持续发展解决方案。

  韩广福 通标标准技术服务有限公司审核员

  本次演讲的主题包括五个方面:业务持续性管理的发展,BCM相关的国际标准,国际标准中BCM相关条款,国际标准在BCM中的关系,国际标准在BCM的最佳实践。

  一、BCM的发展

  BCM的发展主要经历了如下几个阶段。1960年末,首先出现处理IT中断的方式,对单点故障采取冗余措施;1970年末,出现灾难恢复服务商,为企业提供计算机运行中断后的灾难恢复专业外包服务;1980年初,更多的灾难恢复服务商形成外包服务领域,如IBM 提供热备援 (Hot Site) 服务等;1990年,业务持续性管理不仅仅局限于IT灾难恢复服务,而是进入到了更为广泛的企业业务持续管理领域;1995年,国际标准中系统地讲述业务持续性管理,如BS7799,英国商务部推动,由BSI将其发展成为标准;2001年后,相关国际标准相继出台,依据国际标准,对IT相关的管理体系认证与IT人员的认证进入中国。

  二、BCM相关的国际标准

  与BCM相关的国际标准比较多,现在分别为大家进行介绍,主要包括:能力成熟度模型集成CMMI,主要对项目生命周期团队管理能力进行评估;IT治理框架COBIT,提供信息及相关技术的控制目标,重点突出财务方面的审核;质量管理体系ISO9001:2000,对IT系统的生命周期进行管理;IT服务管理标准ISO20000-1:2005;IT服务管理的使用指导规范ISO20000-2:2005,是建立体系的最优解决方案;信息安全管理体系ISO27001:2005;信息安全管理体系使用指导规范ISO27002:2005;信息技术基础架构库ITIL 3.0,实现企业信息化的系统规划和全生命周期管理。

  另外,针对信息安全审计方面的专业认证考试有注册信息系统审计师 CISA和信息系统安全认证专业人员CISSP。

  三、国际标准中BCM相关条款

  对应BCM,标准应该涵盖的范围包括项目管理、风险管理、业务影响分析、响应计划、管理能力培训、检查与持续改进。对应这些分值职能,不同的国际标准分别有不同侧重。其中,CISA和CISSP主要进行员工能力培训,CMMI主要侧重项目管理,COBIT侧重员工能力培训,ISO9001侧重项目管理、员工能力培训和检查与持续改进,ISO20000主要用于响应计划管理和检查与持续改进,ISO27000主要用于风险管理和业务影响分析,ITIL主要用于响应计划管理和能力培训。

  四、国际标准在BCM中的关系

  针对业务持续性管理方针,企业信息化需要满足法律法规、组织内部和顾客的要求。对此有两个标准框架进行支撑,分别是支持信息安全的框架ISO27001,支持服务承诺的框架ISO20000。国际标准的实现体现在一些相关的服务上,针对人员能力管理,可以参照CISA和CISSP;针对风险和业务影响分析,可以参照ISO27001;针对IT项目管理,参照CMMI,ITIL和COBIT;针对IT服务管理,参照ISO20000;针对IT故障演练,参照ISO27001;针对事件问题管理,参照ISO20000。当然,这一系列服务的实现必须依靠企业信息化的有力支撑,包括组织结构调整、企业资产的最佳配置和IT系统的构建,对应会产生一系列过程文件和流程管理。这个BCM的实现总体上由ISO9001和ISO2000辅助进行产品提供、质量和服务的监视测量,最终达到持续改进的组织业务。

  大家可能会分别关注在业务连续性管理过程中每个阶段分别参照什么标准,这些在下一部分讲解中将会涉及。我们这里主要提到的是框架的标准,在实际操作中还应该采取相关技术手段。

  五、国际标准在BCM的最佳实践

  大家一定非常关注在BCM实施的各个阶段分别应该应用哪些标准,下面就介绍一下国际标准在BCM的最佳实践。概括说来,在项目管理阶段主要采用CMMI,风险管理阶段和业务影响分析阶段采用ISO27000,在相应计划管理阶段、能力培训阶段和检查与改进主要采用ISO20000。

  此外,在一些关键环节应该参照的标准可以归纳如下:建立持续改进的管理体系可参照ISO27001, ISO20000;为达成企业质量与服务的承诺,流程和体系的管理可参照ISO9001,ISO20000-1;对于企业IT项目管理,可参照CMMI;对企业IT系统的设计、开发和使用可参照COBIT、ITIL、ISO20000-1和ISO27002;对企业IT人员能力的培训,可参照CISA和CISSP;为证明企业BCM相关能力,取得客户认可和取得第三方认证可参照ISO27001和ISO20000;为证明企业IT项目的管理能力,可进行CMMI评估;为证明企业IT人员能力,取得国际认可的资质,可参照CISA和CISSP。

  Q&A

  1.新的ITIL标准中有BS25999,他和其他国际标准的关系是这么样的?

  BS25999是针对BCM的整体标准,囊括了很多内容,涵盖全过程,广泛应用于BCM。但是BS25999还不是国际标准,所以在规划和实施BCM时,应该将BS25999和国标结合起来,共同支撑业务连续化管理。

  2.根据法律法规,除了银行业,其他IT行业有没有建立相关BCM的要求?

  法律法规只对银行、证券这些关键性行业有要求,但是具体行业的实施与否是由行业需求来决定的,主要依靠企业内部的驱动和外部产业链的驱动。

  此外,国务院信息办重点要求8个重点行业应该全面建设容灾系统,虽然尚未上升到法律法规的层面,但是对BCM的推进是势在必行的。

  3.在众多标准中,企业在实施过程中应该任何选择?跟随国际标准的认证对企业有什么好处?标准的应用是否一定会促进企业的发展?

  每个标准有自己的特点,企业需要根据自己的需要进行多体系多标准的整合。最重要的是根据企业的流程需要去选择相关标准。但是,具体哪个标准更适合哪个企业,需要咨询专家具体诊断,综合考评后决定哪些标准更适合企业的需求。

  国际标准的认证可以使企业在IT规划和业务连续性管理方面更加规范和专业,不仅是对企业相关能力的展示,而且最重要的是促使企业的IT更稳定高效的支撑企业的业务运作,为企业创造长期的收益。

  标准的应用是否一定会促进企业的发展,这取决于标准的应用是否和企业的流程很好的结合,有的放矢的去服务于流程的需要。在国内,有些企业通过标准可能只是为了认证来证明自己的实力,并没有将标准落实到实处;而有些企业看重的是长期效果,会通过一些措施来认真贯彻标准的实施,并测量标准执行的回报率,这样才能使标准的应用真正为企业创造价值。

  演讲二:运用CA Xosoft,确保业务可持续性

  冠群电脑(中国)有限公司 技术顾问:董剑波

  董剑波负责CA产品的售前,CA作为技术产品和解决方案的提供商,有相关BCM的产品来帮助企业业务系统实现可持续性。本次演讲主要包括如下几部分:CA EITM解决方案一览、如何确保业务连续性、成功案例分享和问题讨论。

  一、 C CA EITM解决方案一览

  成立于1976年,总部位于美国纽约长岛,年营业额30多亿,是排名全球第四的IT管理软件公司,99%的全球财富500强企业都是CA的客户。CA专注于业务服务优化,产品包括企业系统及网络管理、安全管理及存储管理。

  CA的发展目标是符合COBIT标准,提供企业相关IT全方位管理解决方案,力求减少企业IT运营风险,提高投资回报率。CA业务涵盖的范围包括IT治理、IT管理和IT安全三部分,我们的愿景是帮助企业更好的在这三个方面实现绩效优化。

  CA恢复管理的解决方案包括分析、安全、政策、加密、备份、媒体危机管理和设备管理等,并提供一个统一的架构来支撑这些功能,在统一的平台上提供相应解决方案。

  二、如何确保业务连续性

  下面我们可以用一个案例来介绍确保业务连续性的方法。一个零售业的巨头FutureS在追赶Wal-Mart的迅速发展过程中,忽然SCM系统瘫痪,导致业务中断。CIO由于无法及时应对而被辞退。由于供应链管理系统宕机一分钟将损失近11,000美元,CEO开启紧急会议,任命了新的CIO Fish进行业务连续性管理规划。Fish在进行BCM时需要按照四个步骤进行:制定草案明确如何更好的执行BCM,培训相关人员了解BCM的思想和运作方式,进行应急预言核查草案执行力,根据演练结果评估优化草案。

  下面介绍BCM要考虑的两个重要指标:RTO和RPO。

  RTO是恢复时间目标,是指灾难发生后从IT系统停机导致业务停顿开始,到IT系统恢复可以支持业务恢复运营之时,所需要的时间。不同企业对RTO的要求不同,零售行业的目标最高,最多容忍10分钟的系统瘫痪时间,否则损失不可估计。

  RPO是恢复点目标,是指能够恢复至可以支持业务运作,系统及数据恢复到怎样的更新程度,可以是上一周的备份数据,也可以是上一次交易的实时数据。我们的目标是通过BCM的规划将中断业务恢复到一个最新的状态,发生意外灾难事件时可能丢失的数据量最小。

  业务连续性保护技术解决方案包括基于应用程序的容灾解决方案、基于数据库的容灾解决方案、基于主机系统的容灾解决方案和基于存储的容灾解决方案。案例中Fish采用的是基于主机系统的容灾解决方案,可以确保持续数据保护(Continuous Data Protection - CDP)、应用程序的应用感知能力(包括MS SQL, MS Exchange, Oracle, & MS IIS)、备份数据100%的可用能力。

  业务连续性保护过程中面临的挑战是底层平台和存储设备众多时,如何跨平台实施BCM方案。Fish决定采用WANSync进行实时的数据复制,从旧金山的主站点实时复制应用程序、文件和数据到纽约站点,复制过程中可以实现底层平台的完全透明化。当旧金山主站点出现问题时,备用站点服务器会有实时监控功能,监控到主站点出现问题后,在几分钟的衔接时间后,纽约站点就会接管旧金山服务的功能,这就是WANSync HA最强大的附加自动切换功能。进行数据转移的方法有很多,这对于用户都是透明的。所以BCM的核心功能体现在远程系统的及时监控和侦测,确保第一时间识别问题,及时解决。另外,WANSync特设多对一的复制策略可以节省硬件资源,物理节点到虚拟机的复制策略可以节省软件资源。

  下面介绍一个很重要的功能,数据还原Rewind 技术。Rewind可以实现将每一条记录实时备份到备份服务器上,并在出现错误时实现回滚,提取存储在回滚区的正确数据。因此,即使用户的错误数据写入,也可以回滚到之前的正确状态。这是xsoft的另一种核心能力,恢复到任意时间点(CDP)。

  接下来重点介绍一下Assured Recovery工作机制。Assured Recovery可以定时自动帮用户进行恢复演练,确保复制过来的数据完全可用有效,没有任何问题。整个过程不用人干预,自动实现,这种应用在业界屈指可数,很好的符合了用户的审核需求。

  综上所述,CA 业务连续性解决的方案优势在于平台和存储设备无关性(广泛支持各种应用和平台,囊括主流厂商的产品)、简单安装部署、灵活的复制策略(字节级复制、带宽的调节)、数据回滚(确保可以恢复到最近的完好数据)、自动地灾难测试(确保复制数据的完整性)。

  三、案例分享

  CA的BCM系统解决方案的典型案例主要有香港证券交易所、亚洲网通和华泰证券,下面重点介绍前两个。

  香港证券交易所,日交易量6000到7000万,自2003年起,已采用WANSync系统,是香港最大规模的WANSync用户 (到目前为止,共70多台)。香港证券交易所的应用属于同城业务保护,可以实现对多种关键系统的保护,包括Microsoft Exchange Servers、Microsoft SQL Servers和File Servers,他采用了WANSyncHA 及 Assured Recovery系列技术产品。

  亚洲网通的案例实现的是日本MS Exchange系统容灾保护,采用T1连接东京及香港的数据中心,属于跨城保护。该应用配合2 Mbps带宽,200用户,30 G数据,每日作复完保证(Assured Recovery)测试和自动灾难恢复测试,并在备机上作出备份。

  Q&A

  1.您主要提到的是操作系统方面的系统保护解决方案,在ERP应用软件领域,如SAP等有没有相应的数据恢复和程序恢复的举措?

  ER领域的应用同样可以通过刚才讲解的WANSync系统来实现,只是它不直接包含内嵌模板,需要通过加载一个软件向导,实现相应保护。加载的模板不在列表内,只是因为他不是最典型的应用,但是我们完全可以根据客户需求进行相应的定制服务。

  2.这个方案和Oracle的自带备份系统有什么区别?

  CA解决方案和Oracle的自带备份系统都可以做实时和分时的数据复制,但是覆盖范围不同,CA可以支持分布式应用和跨平台应用,很多企业的业务保护需要在多平台上进行。

  此外,我们还提供额外的管理功能,如Assured Recovery的灾难恢复预演功能是Oracle的功能中不具备的。此外,自动灾难恢复功能和回滚功能在应用性、灵活性方面都比数据库自带的功能要强大很多。

  3.CA进行备份保护的方式是怎样的?

  在操作系统级别将数据实时复制到备份系统中。

  4.刚才的介绍可以看出对于文件复制的方案,但是对于数据库的复制是怎样进行的?

  数据库方面我们有集成性的特点,和许多厂商的API有集成,一般用快捷复制,直接和数据库底层集成,从而确保数据一致性和集成性。

  5.实时复制会对当前系统的应用有影响,使用户访问数据变慢,贵公司的产品在这方面的性能如何?是否提供硬件解决方案?网络中断时如何解决?

  CA可以在复制内容很大的时候进行压缩,并且提供缓存区,在本地暂时存储相应内容,减缓速度压力。另外,我们提供的是软件解决方案,在硬件方面会有相应的推荐,即什么样的硬件配置能使我们的软件功能发挥到最佳。当然数据的复制备份一定要有网络的配合,应该通过多种手段确保网络的稳定性。

  6.备份和恢复中预演功能的实现是怎样的?

  刚才介绍过一个软件的功能是Assured Recovery测试,并在备机上做出备份,实现自动灾难恢复测试预演,从而直接实现选择相应数据进行实时监测。

  演讲三:从IT认证角度,谈BCM导入

  TUV NORD经理,古智仲

  直接介绍BCM的内容我们已经听了很多,今天我们试着从其它的角度来讲将关于BCM的实现。今天的讲座有两个话题。第一个话题是讨论BCM是在讲什么,什么是BCM。第二个话题是怎么建制BCM,建制过程中有哪些工具,这里的工具大多是指标准。

  了解您的组织

  我们的企业、公司,有很多的部门,这些部门之间有很多的沟通,我们把这些称为process。公司内的各部门和服务之间有很多的联系,这些联系涉及的不仅仅是公司,还有合作伙伴。

  EMC的管理、流程分为3个层次:组织层面、操作流程以及基础设施建设。第一层,关于组织层面的管理方式。我们经常看到的ISO9000的标准就是这一层面的。我们实施这样的标准,因为我们要跟国际接轨。标准是企业之间最好的交流方式。第二层,关于操作流程。企业管理中有众多的流程,有例如BIA这样的方法。第三层,关于基础建设。基础建设包括办公环境等等,所以说不仅IT企业需要基础设施的建设,所有的企业都需要。

  假设有一个叫FUTURES的公司,公司系统瘫痪,如果是你们公司,你们要怎么做呢?一般来说,这些CEO,CIO之类的都要被叫去开紧急会议。出了这样的问题,CIO们有麻烦了。这个时候CIO就会说,没关系,我们有备用的方案。

  针对现况,我们会找出立即恢复供应链管理系统的运作的解决方案。为了避免下次再发生,我们应该加强”风险管理”。

  我们要预防风险,但是,风险不一定要靠IT来防范,还有别的方法,比如说有风险保险。

  风险管理

  针对风险管理,我们有例如BS2559这样的标准。BS2559分两部分,第一部份的内容就是叫你怎么做BCA,第二部分叫SPECIFICATION,讲的是怎么验证。第二部分在今年10月分会公布。

  BCM分为哪几部分呢?BCM包括Risk Management(风险管理)、Emergency Management(突发事件管理)、IT Disaster Recovery(IT灾难恢复)、Facilities Management(设备管理)、Supply Chain Management(供应链管理)、Quality Management(质量管理)、Environmental Management(环境管理)、Health & Safety(人身安全)、Knowledge Management(认知管理)、Human Resources(人力资源)、Security(安全性)、Crisis Communications & PR(危机交流)。现在知道了这些,我们还有一个问题,BCM涵盖了这么多的内容,如果你是企业负责人,你要怎么做呢?

  我们只知道刚刚所讲的那些范围都有可能在你的考虑范围之内。

  我们期望将BCM的观念带到所有的企业。这些步骤,计划建立BCM、实现运行BCM、检查修改BCM、维护该竟BCM系统,这是一个循环。我们知道了这些之后,要搞清楚两点。业务的需求和期望是什么?需要了解的是,我们的期望是什么?

  首先看看企业的需求,客户的期望。从BCM的角度来看,我们可能想到的有很多,不如说,能不能把我们的服务分成不同的等级呢?或者我们把服务分成不同的阶段。BCM就是讨论这些内容。需要考虑的是,有的时候政府会有关于标准的一些要求。

  对于一个IT的供应链的企业,对系统会有什么样的要求?稳定性、安全性、可恢复性、反应时间、期望恢复时间、期望恢复点等等,我们对这些都会有期望。

  既然有期望,所以提出了避免关键业务中断與降低损失,数据恢复的概念,BCM lifecycle。首先,了解我们的业务,他有什么样的需求,然后我们可以确定我们BCM的策略,下一步我们实现这样的BCM计划,然后在企业中建立嵌入一个BCM的文化,再下一个步骤是BCM演习和维护。中间的和每一步都相关的是BCM程序管理。

  介绍一下在这个流程中的一些名词:LBC(业务连续性的等级)、BIA(业务影响分析)、RA(风险评估)、BCP(业务连续性计划)、CMP(危机管理计划)、ITDR(信息技术灾难恢复)等等。

  要执行这样的系统,那么怎么执行?对内,我们需要把BCM应用到每一个职员,对外,我们要满足对客户的服务承诺。

  BS25999标准的内容。谈到了计划业务连续性管理系统、对BCMS的实现和操作、修改、维护等等。

  BIA和RA的流程。首先,只要是任何的标准,是管理系统,必须有政府或组织去推动,去承诺。然后,找到各种可能的损失、影响,有经济上的、操作上的等等。找出来这些之后我们要进行定性定量的分析,从而找出关键流程。接下来,设置风险的管理指标。

  业务连续性计划

  BCP(业务连续性计划)包括了:解决方案、基于时间的目标、为了达到基于时间的这些目标需要作的事情、程序流程、信息、结构、组织。

  标准规定了我提供什么样的服务,serves level。当业务流程改变的时候,要重新做一次BIA。

  BCM前期评估的方法论和实践标准有哪些呢?第一,BCM相关的标准。关于怎么样执行的标准,例如BS25999,分成两个部分。第二,IT相关的标准。ISO/IEC是一个很厚的标准,大概超过2700页。第三,风险管理的方法和工具。

  业务风险分析

  风险分为软、硬两种。硬风险是直接的,例如,经济上的损失、违反法律规则或者标准、不能达到承诺过的服务标准、增加了工作的成本这些。软的风险是指间接的冲击,例如,政治上或者合作上或者私人遇到的阻碍、失去了竞争的优势、失去了可信性等等。

  风险评估

  2005版本的ISO/IEC,讲到了IT风险管理。有评估,有处理方法,然后才能做风险管理。IT的管理和风险相关,但是IT的风险评估很难。

  做了风险评估之后,可以参照各种各样的标准,来找到我们的解决方案。这些都可以做一个规划。

  在2005版本的ISO/IEC中,A.14讲的是业务连续性管理。除了ISO之外,还有别的一些标准。例如S6.9有95个方法,有些我们又可以参考S6.12。

  2005版本的ISO/IEC,还讲到服务管理,其中定义了这么几个process:服务交付方法、放弃处理、决定方法、关系处理、控制方法。

  BCM的好处

  BCP可以改善组织面对关键目标失效的恢复能力、提供组织回复能力之演练方法、展现保证管理业务中断能力,以保护组织商誉与品牌。BCP对企业的管理一定是有好处的。英国标准协会花费精力把它写成标准一定是有他的道理的。当然,执行起来也是有很多的困难的。需要考虑管理层的认识深度和重视程度、平衡人与技术,平衡BCP与企业文化,要知道如何确保计划的连续性和有效性,怎样保持投入资金与业务永续的平衡,BCP执行力度又是怎样的水平。

  有3个重要的环节可以改进我们的业务。首先是人,有技能、受过很好培训的职员。第二是流程和方法,我们需要定义好各个目标之间的关系才能找出更好的流程和处理方法。第三是技术,包括我们使用的工具和设备。

  我所在的公司提供与安全相关的测试、评估、证明、支持等领域的服务。

  我们认为IT相关的服务分成两个部分,一个是关于security,一个是关于safety。系统最底层是IT的产品结构,上面一层是系统,最上面是组织和管理系统。

  Q&A

  1、问: 连续性管理和风险管理之间有什么关系?

  回答: 风险管理是从企业经营的角度看连续性管理这个问题,它是以BIA的方法来实现。这个问题答案不是很确定 ,企业管理是很大的话体,看你从哪个角度看。

  2、问: Safety和 security能不能更多的解释一下。

  回答:汽车的胎压测量 safety

  只要何人的生命相关的都是safety,别的,IT相关的管理都是security

  3、问:hard直接 应该有量化的来计算,那么对于间接 的 有么可由可以参考的衡量标准?

  回答:过程中我们都会在描述中量化,分级之后就可以量化。我们可以量化,只是不是很科学。毕竟是管理系统,他是活的,很难去很科学地量化他。BIA是一个assement,很主观的 ,没有任何的条件能够正真量化出来。企业中我们总是很多人拍脑袋来决定的。

  4、问:实际应用中系统需要我们提供一个量化过的数据

  回答:实际上,我们总是会设定一些优先级来帮助我们的量化

  听众建议1:对每个function进行讨论,讨论在各种情况下是否成立,什么情况下是临街状态。

  听众建议2:根据实际业务中的数据来测试、确定我们量化的function.

  演讲四:EMC2业务连续性建设实践经验

  许 瑀 资深业务连续性咨询顾问

  一、BCM业务连续性管理导入

  BCM的范围很宽,远远大于IT。应该在定出战略的基础上,组织业务相关人员全程参与,侧重应急响应和规划。在执行过程中分别进行风险管理、提前公告预防、应急管理、危机沟通、业务恢复和IT系统恢复。在EMC现在的BCM建设过程中,更侧重的是IT系统恢复。实际上业务连续性建设不等于IT服务的连续性建设,IT服务的连续性建设只是其中的重要一环。但是没有IT系统的持续,就没有业务的持续,IT服务的连续性是业务连续的重要基础,从IT服务的连续性建设开始,是进行业务连续性建设的有效途径。

  在行业应用过程中,以IT为中心的业务连续性建设重要性日益明显,因为业务功能对IT系统的依赖性越来越高,业务系统集中化所带来的运行风险不可低估。为此,国务院信息办决定在八大重点行业全面建设容灾系统,强调投资容灾建设的成本是长线投资,远远小于灾难损失。

  我们这里所讲的业务连续性建设是以IT为中心的,相应项目团队的主要成员也是IT部门相关人员,当然必须要业务部门人员积极参与,并且得到业务部门的授权和配合。IT业务连续性管理项目必须自定向下贯穿组织核心部门,覆盖组织核心流程。总体说来,BCM必须要提前规划,防范与未然,通过日常容灾系统等部署,在灾难降临时才会将业务影响和损失减少到最小。发生事故时,比较合理的解决方式是CIO主动报告:公司的应急评估小组对突发事件进行了初步评估,原因可能是什么,有无数据丢失,估计需要多长时间才能修复,根据业务连续性计划,启用什么应急预案,预计在多长时间后恢复供应链管理系统。

  实现业务连续的关键要素是以业务为核心,配备相关人员、制定完善的流程、采用合适的技术,这才能保证企业的业务连续性。为此,EMC开发了BCSI方法论,为以IT为中心的业务连续性建设提供系统、科学的指导。其中,核心模块包括启动准备、规划、建立和管理。

  二、BCM业务连续性管理内容

  以IT为中心的业务连续性规划包含两方面内容。第一方面是本地运营恢复规划,包括本地保护与恢复策略规划、本地保护与恢复技术选择、本地保护与恢复架构规划、本地保护与恢复改造路线。第二方面是灾难恢复规划,包括容灾保护策略规划、灾难恢复策略规划、容灾技术选型、容灾架构规划、演进路线。这两方面内容的实现依赖于IT现状分析、风险分析和业务影响分析的有效支撑。

  我们要反复强调的是实施BCM时不能给业务部门太高期望,因为IT手段始终有限,不可能确保数据完全不遗漏,必须让业务部门清楚这一点。下面我们分别介绍管理内容的要点。

  1.业务影响分析

  第一步要定义业务需求,根据业务需求来定义相关参数。对于紧急的灾难事件,容忍时间限度要放宽,所以定义了DRTO、DRPO (Disaster Recovery);而对于日常工作中的普通问题,时间限度变小,用ORTO、ORPO (Operational Recovery)衡量,要求必须实时备份,在系统故障发生时及时追回数据。总体说来,必须分别定义事件的重要和紧急程度,对于最重要、最紧急的事情,进行重点及时处理。

  根据具体的业务进行相应需求分析时,分析的范围主要包括如下几方面:定性或定量分析关键业务中断的影响或损失、定义关键业务功能和业务流程、分析关键业务功能、业务流程所依赖的资源(重点IT资源)、分析业务与IT系统的映射关系、分析各关键业务功能最小资源要求(侧重IT,并设置相应优先级)、业务重要性分类、定义容灾目标、数据追补能力及方式。

  第二步进行业务重要性分类,要明确建设目标,分别考察决策时间、评估时间、等待时间,进而准确定义DRTO和DRPO。

  2.风险分析

  业务系统可能面临的风险包括计划外和计划内风险,必须分别列举出相应风险类别和案例,方便策略的制定。制定业务连续性保护策略包括和容灾保护策略。其中,本地保护策略包括本地高可用(群集或负载均衡等)、磁带备份、备份到磁盘、虚拟磁带库、基于磁盘卷复制的保护、CDP(持续数据保护)。容灾保护策略包括同城容灾、远程容灾、两点容灾、多点容灾、同级容灾、降级容灾、应用级或数据级容灾、同步数据保护或异步数据保护、容灾数据复制技术、主备中心运营方式、双中心运营方式、多中心运营方式和演进路线。

  3.应用及IT现状分析

  需要关注的现状分析有分析业务应用与IT系统映射、分析业务应用的关联关系、根据业务的关键性确定IT系统和IT元素的重要性。例如,当用户发现详单和总帐不一致时,移动和银行的处理手段就不一样,因为行业的关注点和性质差别很多,需要分别展开分析。

  4.本地运营恢复和灾难恢复

  本地运营恢复时,不同级别的保护模式满足不同的备份/恢复目标,根据策略的不同,需要分别选择相应的技术手段进行本地或远程方案的制定。

  在灾难恢复方面,技术实现手段有很多种。当前的现状是90%的用户采用基于磁盘阵列的技术进行备份;金融和很多机构都是采用Linux系统。我们在实施时应该尽量参考成熟、广泛应用的系统和技术手段,确保系统和技术的可靠性。

  对此,国务院信息化工作办公室在《重要信息系统灾难恢复指南》中定义了不同的灾难恢复等级可以有不同的技术实现,可以作为实践的知道。但是我不同意第6级,数据零丢失和远程集群支持直接由同步复制技术和远程群集来实现。因为零数据丢失必须是同城容灾,这个界定必须清楚。另外,远程集群支持中的容灾自动切换也不科学,因为容灾决策是定性分析,必须人工进行,系统自动执行是有风险的。应该由人做出决策,而后自动执行切换,系统在这方面的智能程度并不能很好的满足应用需求。

  对于系统建设阶段的开发,EMC开发了BCSI方法论,为以IT为中心的业务连续性建设提供系统、科学的指导。

  三、BCP业务连续性计划

  业务连续性计划是一套事先被定义和文档化的计划,明确定义了恢复业务所需要的关键人员、资源、行动、任务和数据。需要考虑的问题包括:关键业务数据被彻底破坏,只能用昨天的备份恢复,该怎么办?服务器瘫痪,该怎么办?技术更新换代,怎么样对业务影响最小?发生了灾难事件,该怎么办?IT系统恢复是否就可以开放业务运营?

  BCP的内容不应该只局限在IT方面,应该涵盖如下几个方面:应急响应计划(业务连续性管理组织结构、应急初始评估流程、灾难宣布流程、灾难评估流程);容灾恢复计划(IT切换流程/步骤/启用条件、IT回切流程/步骤/启用条件);运维恢复计划(ORP);业务恢复计划。

  BCP必须简单有效,定期演练,演练之前充分准备,遵守相关流程,从而保持业务连续性计划的有效性。演练的关键点在于通过真实的演练来检验并提高,演练规划要详细、模块化,演习手册要能满足指挥员和操作员不同的需求,演习结果要量化衡量。每次演练都有新的问题发生,在事前不要给领导100%的预期,因为演练的目的是要成长和提高,通常实现80%的目标就已经是一种成功。

  下面我们探讨一下保持业务连续性计划的有效性举措。首先是进行业务连续性计划的维护与更新。内容包括采用模块化内容组织方式,方便管理、维护;根据业务发展进行扩充;建立明确的维护与更新机制;利用BCM管理软件进行科学管理。其次是容灾系统的变更管理与控制。内容包括建立容灾系统变更管理流程;建立容灾系统配置同步控制机制;建立定期检查机制,明确职责分工。最后是得到管理层的重视,具体体现在由领导牵头确保日常运维严格按照业务连续性计划要求进行,并且推行正规的考核机制。

  有了业务连续性计划后,实际的操作流程应该清楚的进行定义。遇到故障时,必须及时汇报,并进行故障评估。对于故障可本地恢复,无数据破坏的,执行本地恢复预案,无需数据追补;对于故障可本地恢复,有数据破坏的,执行本地数据恢复,执行数据追补预案;对于非灾难事件,可以利用容灾系统加快缩短恢复时间,执行容灾切换;对于灾难事件,则要执行灾难切换流程。

  Q&A

  1、在BCM执行时,很多业务部门有很高的预期,认为建立相应系统就可以恢复所有问题,那么当业务部门和IT部门出现争议的情况,应该如何处理?

  目前没有公认的很好的解决方案,关键是思想意识上引导,改进观念。通过和业务部门沟通,告诉他们通过容灾备份可以解决哪些风险,解决到什么程度。当他们的预期更高时,我们要告诉他们有什么方法满足,要付出多大代价,所以最终是业务和IT部门的一个折衷。如果业务上没有难以忍受的损失,最终解决之道是以IT为主导,参考业务的意见,在基本面上满足他们的预期。

  2、您提到的《重要信息系统灾难恢复指南》中第六级的问题是否可以通过演练来解决?

  目前市场的自动切换软件无法根据定义的切换顺序来有序运行,当有的系统切换不过去,后面的系统根本无法带动,必须有先后顺序,无法智能选择。所以目前仍然为人工定义,看哪些可以串行、哪些可以并行,最终通过规划有一个全局的规划处理。因此,这个问题不是演练所能解决的,而是在决策制定是必须要人的参与。

  3、银行和保险公司的系统应用中,常出现由于编程人员少了一个编程条件,产生一些修改误差,导致数据逻辑错误。而系统不会自动识别这些问题,通常滞后很长时间才会发现,而原始数据又不存在了。这种情况应该如何防范?

  这实际不是BCM中的问题,而是系统应用中常出现的一个难题。由于历史数据已经不存在了,很难找到之前的时间点去恢复。解决方法依赖与多个时间点数据的保存,方便历史节点的查询。所以需要有个数据归档平台,定期抽取重要的数据信息放到归档平台,保存的时间会比较长,通常7年以上。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: