扬州市政府云计算中心容灾备份建设实践
2019-09-23郭婵娟
郭婵娟
“云上扬州”是智慧扬州发展的新阶段,也是国家“新型智慧城市”理念在扬州的落地。扬州市政府云计算中心作为全市电子政务的基础设施管理中心和数据资源中心,承担着全市电子政务的信息基础设施整合,将在现有基础上打造“云上扬州”云基础设施环境,实施大平台建设,推进大数据应用。“云上扬州”建设对数据资源计算存储能力、交互处理能力、容灾备份能力以及安全保障能力提出了更高的要求,现有服务能力难以快速处理海量复杂的数据、无法保障业务的连续性和稳定安全的运行,亟需提升现有数据中心的数据处理能力并统筹规划建设全市统一的灾备中心。本次项目以“云上扬州”建设为契机,在市政府云计算中心基础上统筹规划“两地四中心”容灾建设。
一、运行现状及存在问题
扬州市政府云计算中心于2011年启动建设,通过从基础设施、数据资源和应用平台三个方面对全市的信息资源进行整合,有效解决信息孤岛问题,从而实现全市信息化项目的集约投资、信息共享和业务协同,截至目前,整合了全市81家市直单位、4个功能区和邗江區机房,已承载超过550台虚机,支撑了全市115个政务网站,139个业务信息系统的运行。目前部署了5台核心存储,合计承载421T各类生产数据。同时建立了300TB备份容量的一体化备份平台,采用各类备份策略将不同类型的数据进行统一备份、分类归档,保障了整个数据资源中心的数据安全,部分核心数据实现了同城异地备份。
随着云计算、大数据技术的飞速发展,各类信息系统数量的不断增加,当前云计算中心的系统支撑能力已逐渐无法满足大平台融合通用、大数据开放利用的需求,主要体现下如下几个方面:
基础环境运行年限长,部分设备老化,故障率高。市政府云计算中心机房已使用七年,设备数量逐年递增,对机房内环境压力逐渐增大,空调、环境监控等经常出现告警,无法保障机房内各类设备全天候恒温恒湿稳定运行。
网络架构存在性能瓶颈,无法精细化管理。市政府云计算中心采用传统三层架构组网建设电子政务网,已持续运行七年,随着业务数量、服务器规模、接入用户数的增长,已出现网络性能瓶颈,同时区域划分较多,无法精准掌握网内业务关联情况,管理难度大。
存储备份平台架构单一,未实现异地容灾,存在数据安全隐患。市政府云计算中心现有存储平台采用全FC方式进行部署,随着非结构化数据的不断增长,现有FC存储架构存在非结构化数据交互的性能瓶颈,云计算中心已实现本地备份和部分数据异地备份,尚未实现数据容灾,无法保障业务的连续性,存在数据丢失风险。
现有备份环境备份和恢复效率不高。仅部署了一套备份系统对现有业务系统数据库、文件目录、虚拟机文件、应用程序等进行统一集中备份,随着业务系统越来越多,数据量也越来越大,一旦出现存储故障,只能提供已备份的数据和文件;如果要恢复系统运行,必须重新部署系统环境,需要花费大量的人力物力和较长的时间进行恢复工作。
二、“两地四中心”容灾建设
充分运用云计算、大数据等先进理念和技术,按照“集约高效、共享开放、安全可靠、按需服务”的原则,以“统筹建云”为构架,依照国家第六级容灾的建设标准,依托市政府云计算中心和企业云计算中心,完成“两地四中心”建设,即建设主中心、本地双活中心、同城备份中心以及异地灾备中心,其中主中心与本地双活中心两个中心组成双活架构,扬州本地运营商机房作为同城备份中心,江苏省统一建设的盐城灾备机房作为异地灾备中心,最终完成核心业务系统实现双活级容灾,重要业务主备级容灾,一般业务数据级容灾。
(一)网络容灾设计
主中心和同城双活中心采用OTN光纤线路将两个数据中心的管理网、业务网等互联,实现网络层的双活容灾。在管理网中,为保证两个数据中心统一管理,统一运维,本次通过10G光缆将两个数据中心的管理网互联,形成一张网,所有的管理IP均是统一分配,不存在主中心和双活中心的区别,通过统一的管理网,运维人员可以在主中心实时监控两个中心的运行状况,也为业务网络提供了可靠的管理监控体系。业务网采用了SDN+Vxlan的技术,本次通过40G光缆将两个数据中心的的业务网互联,网络层采用的是传统二层架构,实现分布式网关,当业务主机实现夸中心迁移时,不需要更换网络地址,真真意义上实现,网络层的位址分离,策略跟随。各接入市直单位链路通过运营商汇聚后分别与主中心和双活中心互联,同时采用浮动路由的策略,探测两个数据中心网络状态。同城备份中心因为对时延要求较低,则可直接通过IP网络进行异步数据复制。
(二)云容灾设计
核心类业务利用负载均衡和应用容灾的技术,云主机在主中心和双活中心各部署一套,应用容灾软件负责两个中心云主机数据的一致性,配合全局负载均衡,对该两边的业务进行负载分担和实时监测,在发生灾难事故时根据相应策略实现故障切换,保障业务连续性。重要业务采用虚拟化平台的SRM技术和底层存储通过自有的同步复制技术,实现数据的实时一致,SRM同步虚拟化平台的信息,同时关联存储的复制信息,从而实现平台跨站点容灾备份。SRM的容灾业务是通过在虚拟化管理平台上创建虚拟机保护组,虚拟机的数据通过存储的复制功能,在远端存储上保有一份虚拟机的数据,并通过制定恢复计划来保证受保护虚拟机在特定的恢复流程指导下完成在远端站点的业务恢复。
(三)数据库容灾设计
1、Oracle 数据库容灾设计
Oracle数据库容灾采用RAC和ADG两种技术的应用。在主中心,由数据库一体机内的多个的计算节点服务器构建RAC实时应用集群。当一体机中的某个计算节点硬件故障或数据库不可用时,可在其余节点上继续运行,从而确保一体机能够对外提供一个稳定可靠的数据库服务。在主中心与双活中心间,则采用Active Data Guard(ADG)来实现Oracle数据库的容灾。应用在主中心部署主数据库,在双活中心部署以及一个或多个备用数据库,备用数据库是与主数据库在事务上一致的副本,利用ADG 技术通过备用数据库对主数据库文件的不断复制,不断应用主数据库传输过来的redo重做日志来保持和主数据库的一致性。
2、SQL Server、MySQL等数据库容灾设计
SQL Server、MySQL等数据库直接在由云管平台分配虚拟机部署,当数据库发生故障时,整个数据库随虚拟机进行云平台内迁移,即在操作系统层面确保此类数据库的高可靠性。
(四)备份系统设计
采用灾备云方式,分别在主中心、运营商同城异地备份中心和江苏省灾备中心盐城灾备中心部署备份集群,可按需无限扩展备份节点数量,满足不断增长的业务数据备份需求。主中心备份系统实现对大数据中心内所有平台及租户数据的保护,通过重复数据删除、LAN-FREE等技术,搭建高效备份云。对于Windows及Linux文件系统备份,安装客户端选择文件进行备份。对于虚拟化平台采用无代理备份,通过调用VADP,配合重复数据删除、CBT(数据块变化追踪)、LAN-FREE备份、NBD备份等技术,实现海量虚机的高效备份及细粒度恢复,同时将备份的数据进行本地归档,归档至物理磁带库。运营商同城异地备份中心实现对对大数据中心所有业务数据的异地备份,江苏省灾备中心盐城灾备中心备份资源实现对核心业务数据的异地保护,保证所有业务数据的完整性。
三、建设成效
建成同城异地双活政务网,提升了网络承载能力,政府办公更加高效。主中心与双活中心之间以100G波分通道互联,骨干网速率达到40Gbps,互联网出口带宽8Gb,网络核心层通过大二层技术实现存储层双活、数据库层双活、网络层双活、应用层双活,接入层实现了双运营商双网运行,自上而下任一节点出现网络故障时,双活数据中心能够快速接管业务,实现用户访问的无感知切换,为政府部门办公和业务访问提供了可靠的保证。
建成同城异地双活政务云,提高了上云业务的可用性,政务服务更加可靠。将区域卫生、政务服务一张网等民生类核心业务分别部署在两个中心,依托大二层网络、双活存储、全局负载等技术最终实现应用级双活,当一个站点发生故障时,另外一个站点可实时接管所有业务。同时采用一体机的形式来提供数据库服务,一方面保证数据库的高可靠性,另一方面提升数据库的处理效率,从而带动业务处理效率的提升,最终使运行在政务云上的业务更高效、更稳定、更可靠,全天候为社会公众办事、看病就医等服务做好保障。
构建了完善的容灾备份架构,提高了云上业务数据的安全性,政务数据更有保障。通过云平台无代理备份、异构云平台恢复、租户数据自行备份、CDP、CDM、重复数据删除、LAN-FREE等技术搭建备份云平台,对云上所有应用和平台的数据进行备份,利用不同存储介质将核心数据进行全生命周期归档保存,并通过灾备智能分析运维系统,实现对备份节点日志接收采集、备份日志数据解析处理、备份策略的优化改善等功能。通过获取来的各备份任务的详细日志信息,可对历次备份日志进行合并、分析并做图形化展示。同时同城异地备份中心和江苏省灾备中心盐城灾备机房备份资源对大数据中心所有备份数据的再次异地保护,确保在主中心发生备份系统异常甚至是整体机房灾难的时候,数据在同城的异地备份中心仍有一份,便于尽快恢复业务系统,政务数据的保护级别和抵抗各种可能安全因素的容灾能力得到极大改善。
(四)建立了灾备管理体系,提高了应急事件处理能力,政务云运维更加规范。基于现有ITSS运维服务体系,增补了灾备服务的内容。一方面加强了灾备系统的运维管理,扩充了有关灾备运维管理的知识库,制定了基于灾备运维评价体系;另一方面利用云管理平台从技术层面对灾备系统进行实时化、可视化的监管;最后中心通过内训和外训等方式提升了现有运维人员对新建灾备系统的理解,为运维团队提供技术支撑。最终,中心通过完善机制、精细服务、技术培训等方式,为灾备系统打造了一只高素质运维团队,维持一贯的高效率运维服务。
四、下一步工作
此次项目建设完成后,市政府云计算中心将定期开展数据中心灾备与恢复的模拟测试演练。
一是对核心业务的双活测试。在主中心和双活中心部署核心类业务的模拟测试应用,在事先制定应急策略前提下,通过对指定设备断电、中断网络等手段,测试在“任一中心内突遇重大灾害,网络、服务器、存储等硬件某一设备或全部设备出现故障”的情况下,核心业务系统能够自動切换至正常工作的双活数据中心,而前端访问无感知。
二是对重要业务的容灾测试。在主中心部署重要业务的模拟测试应用,在事先制定应急策略前提下,通过对指定设备断电、中断网络等手段,测试在“主中心突遇重大灾害,网络、服务器、存储等硬件某一设备或全部设备出现故障”的情况下,重要业务应用首先能够在主中心云平台内自动漂移拉起,其次能在人为干预下在预定的时间内在双活中心重启并提供服务,数据无丢失,前端访问中断时间较短。
三是对一般业务的数据备份测试。在测试环境内,定期对业务应用执行数据备份与恢复演练操作,记录备份和恢复的成功率,以及备份数据是否丢失,并建立归档数据采样恢复机制,确保归档的数据有效可用。
通过这些测试和演练,将进一步提升市政府云计算中心的灾难恢复水平,为“云上扬州”各类业务应用的高效运行提供有力保障。
作者单位:扬州市政府信息资源管理中心