通信工程论文BOSS容灾系统建设及管理
所属栏目:通信论文
发布时间:2013-12-02 16:55:46 更新时间:2013-12-02 16:13:46
日益激烈的市场竞争对BOSS系统的可靠性及服务质量提出了更高的要求,容灾系统作为BOSS系统的有机组成部分,在BOSS系统中起着不可忽视的作用。为保障在故障或灾难情况下BOSS系统的业务连续性,各运营商都在加强对BOSS容灾系统的建设力度。
【摘要】BOSS容灾系统的建设需要重点考虑容灾系统的地域问题、技术实现问题、管理及切换响应时长问题、资源利用问题。对此,首先简要介绍BOSS容灾系统的有关概念及实现技术,然后结合黑龙江移动BOSS容灾系统的建设经验,重点讨论容灾系统的管理问题,最后介绍了容灾系统的多种用途。
【关键词】BOSS容灾系统,“双中心”建设,容灾管理系统
1容灾系统概述
在BOSS容灾系统的建设过程中,以下几个因素需要重点考虑:
(1)容灾系统的地域问题。即容灾的主机、数据、网络等备份是放在与生产中心相同的“本地”,还是放在离生产中心较远的“异地”。如放在“本地”,从技术实现角度看将更易实现,从成本角度讲也会使成本相对较低;但如果发生地震、洪水、火灾等破坏性大、影响面广的灾难,“本地”容灾将失去对系统的保护能力,也就背离了容灾系统建设的初衷。因此,目前绝大多数的容灾系统均采用“异地”容灾的方式来进行规划及建设[1](注:本文讨论的容灾系统,如无特别说明,均指异地容灾)。
(2)容灾系统的技术实现问题。容灾系统采用异地方式进行建设,当生产中心发生灾难时,容灾系统必须在距离较远处迅速接管生产中心来保障业务的连续性。由此可见,容灾中心首先需要有与生产中心时刻保持畅通的网络环境;其次需要有与生产中心能力相当的主机、存储等资源;最重要的,对于关键业务数据,容灾中心数据还要能和生产中心进行实时同步或备份,并能够在灾难发生时由容灾中心利用复制的数据提供业务的运营支撑服务[2]。
(3)容灾系统的管理及切换响应时长问题。当灾难发生后,容灾系统需要多久才能够有效提供对业务的支撑,这是在容灾系统规划初期就需要重点考虑的问题[3]。毫无疑问,容灾系统对于生产的接管时间越短越好。但是仅仅有必要的主机、存储、网络、数据等资源,容灾系统并不一定能够在灾难发生后第一时间成为接管生产的可靠保障。除日常加强对容灾系统科学、持续的管理外,还需要有一个专门的管理系统或平台,来负责容灾系统的管理和切换。
(4)容灾系统的资源利用问题。容灾系统作为生产系统的保障系统,绝大多数时间处于资源闲置状态;如何有效保障容灾系统资源的利用率,减少浪费,也是容灾系统在建设之初就需要考虑的问题。
以上问题对于容灾系统的可用性起着至关重要的作用,必须引起足够重视。下面笔者结合黑龙江移动容灾系统的建设历程及BOSS系统维护经验,介绍一下对这几个问题的分析和规划思路。
2容灾系统建设
2.1容灾系统“双中心”建设
黑龙江移动BOSS容灾系统始建于2005年,所有BOSS系统支撑设备位于哈尔滨市进乡街(生产机房)和开发区(容灾机房)两个机房,建设之初可实现数据库、计费、账务等系统的应用级容灾;从2007年开始,逐步开始由传统“生产-容灾”的主备机房部署方式向“生产-生产”的“双中心”部署方式过渡(即将原来的主备机房区分为CRM机房和BOSS机房,两个机房同时运行生产业务和容灾业务,互为容灾),至2010年,基本完成“双中心”的建设工作。
采用“双中心”进行机房的规划和建设,有以下两个好处:
(1)减小灾难发生时的影响范围。将原来全部生产系统部署到一个机房的方式改为部署至两个机房,可有效降低风险[4],是对于上述问题1的一个优化解决方案;
(2)有效提升资源利用率。传统的主备方式将使容灾侧资源完全处于闲置状态,通过双中心部署方式,可有效减少资源的浪费[4]。在进行“双中心”的建设过程中,建议采用IBMpowerVM等虚拟化方式进行主机的部署及资源分配。在运行有虚拟化软件的物理主机上,既运行本机房的生产系统,又运行对端机房的容灾系统。在系统正常的情况下,资源分配以本端生产为主,当灾难发生时,通过虚拟化技术迅速动态调整资源给相应容灾系统,同时启动容灾系统接管生产,从而既实现了容灾切换的目标,又节约了资源。
2.2容灾关键技术实现——数据保护
采用双中心的建设方式时,虚拟化技术可以实现主机资源的动态调整,不过容灾系统建设中最为关键的技术问题——数据的实时保护问题,仍然需要由特殊的技术手段来加以实现。目前黑龙江移动采用EMC的存储实时同步复制技术,来实现生产端的数据不间断地同步至容灾端。在灾难发生后,即可将复制中断,启用容灾端数据;在灾难结束后,容灾端的数据能够同步回生产端,与生产端保持严格一致[5]。EMC存储同步复制在整个切换过程中的几个状态如下:
(1)同步状态(如图1)
系统正常情况下,R2(容灾端)与R1(生产端)数据保持同步,R1可以提供给生产主机访问,R2的状态为无法写入,R2端的容灾主机此时无法对R2进行读写。
(2)Failover状态(如图2)
在灾难发生后,R2可以提供给主机访问,R1的主机此时无法对R1进行读写。
(3)Failback状态(如图3)
在生产端恢复正常后,数据开始从R2更新至R1,此时R2重新回到无法读写的状态,不能提供给R2端主机访问。
从以上几个状态可以看出,采用EMC的Failover技术,保障了生产端数据与容灾端数据的一致性,同时实现了灾难恢复后容灾端数据同步回生产端这一功能。
2.3容灾管理及维护容灾系统的管理及维护工作是一个科学、系统、持续的过程,应始终贯穿于容灾系统的规划、建设、使用等各个阶段[6]。笔者认为,一个好的容灾系统,如若要在灾难发生时充分发挥其应有的作用,至少应从以下几个方面加强管理工作:
(1)制定容灾系统的管理办法及相关细则,日常的容灾实施、演练及真实的灾难切换,均严格按照管理办法进行实施;
(2)日常维护工作中应包含容灾系统的切换演练工作,建议每季度至少进行一次真实的容灾切换演练工作,根据演练结果,发现并改进问题,进一步优化管理工作;
(3)容灾系统的日常管理、切换应做到流程化、界面化,最好能使用专门的容灾管理系统进行日常维护及演练切换等操作,并且多在容灾演练工作中加以使用、验证、完善,这样可以大大缩短灾难发生后容灾系统的切换时长;
(4)容灾系统的底层环境,例如主机或数据库参数、存储配置信息、账号口令等,应保持与生产一致或近似一致,否则切换后容灾系统可能仍无法正常对外提供服务。建议在上述的容灾管理系统中添加专门的功能模块,用于检测生产系统与容灾系统底层环境的一致性。
下面以黑龙江移动的容灾管理系统为例,简要介绍容灾管理系统的一些功能及其在容灾切换过程中的优势。
黑龙江移动容灾管理系统始建于2010年,该系统集成了容灾切换、演练管理、数据管理、监控管理等容灾系统日常维护及管理所需的功能(如图4),是黑龙江移动BOSS容灾系统日常演练及灾难切换的主要工具。
该管理系统采用B/S模式进行部署建设,在BOSS局域网内任一授权的机器上均可通过浏览器进行访问,十分便于维护工作的开展及紧急容灾切换的进行。同时,切换过程采用界面化方式进行,减少了人工操作失误的可能性,节省了操作时间。
2.4容灾系统的用途
容灾系统并不仅限于用在接管生产系统提供对外服务上,还可以用于其他场景,以避免资源的浪费。笔者认为,容灾系统至少还包括以下几种用途:
(1)重大割接保障:在有重大割接时,为保证在割接失败时不会造成数据的异常,需要在割接前保留静止数据,以使得数据可以恢复,此功能可由容灾系统支持;
(2)操作系统或数据库升级时版本验证:在生产系统升级前先升级容灾系统,由于容灾系统有与生产相同的环境,用容灾系统验证升级的可靠性也是最有效的。同理,其他一些有风险且需要提前测试的工作,都可考虑使用容灾系统进行;
(3)月末出账:依靠容灾系统、BCV(BusinessContinuanceVolume,业务连续性卷)系统等辅助环境,可有效缓解生产系统在月末出账期间的巨大压力,并能保证出账期间业务的正常受理。
3结束语
BOSS容灾系统的建设,并不能一蹴而就,而是一项长期、持久的工作。形成相应的管理流程、制定高效的管理工具仅仅是一个开始;更多地,需要管理人员加深认识,在日常的维护工作中严格执行,扎实、细致、全面地做好每一项工作。
参考文献:
[1]佟敏,李方村.关于BOSS异地容灾系统建设的讨论[J].电信科学,2004,20(7).
[2]佟敏.BOSS容灾系统数据复制技术及选择[J].电信技术,2006(5).
[3]胡国辉,陈丕海.BOSS容灾建设策略[J].电信技术,2006(5).
月期刊平台服务过的文章录用时间为1-3个月,依据20年经验,经月期刊专家预审通过后的文章,投稿通过率100%以上!