河南省水利业务系统容灾平台高可用研究与应用
2017-10-20刘克武吕朋举河南省水利信息中心
□刘克武 李 亚 吕朋举(河南省水利信息中心)
河南省水利业务系统容灾平台高可用研究与应用
□刘克武 李 亚 吕朋举(河南省水利信息中心)
随着信息技术的飞速发展,社会需求的刺激,河南省水利业务系统呈几何增长,随之水利业务应用系统的稳定性和高可用性就显得日益重要,为有效地防止因本地网络的中断或业务系统的故障引起的数据丢失和服务不可用,研究和建设河南省水利业务系统容灾平台高可用,实现若生产端服务器故障或宕机,应用服务自动或手动切换到容灾端的服务器上,由其上对应的应用对外提供服务,关键业务系统达到“RPO≈0,RTO<5m”的目标,保证河南省水利业务系统的连续性。
容灾;高可用;水利业务系统
0 引言
容灾技术是现在信息化建设的重要组成部分,是防范灾难、降低损失、提高业务持续性的重要手段,是提升服务质量、承担社会责任的重要保障,目前已广泛应用于各行各业。
河南省水利信息化建设起步比较早,从20世纪70年代开始,随着社会的发展和互联网技术水平的提高,一方面水利系统业务的不断扩展,刺激了水利业务系统突飞猛进的增长,另一方面随着水利业务系统的推广、使用以及无纸化办公的要求,现在的工作已依赖于网上办公,网络的中断或业务系统的故障都会严重影响日常工作的正常完成,同时也会对社会和公众造成严重的影响。如何有效地规避故障风险,如何提高水利系统业务连续性的接管能力,降低或减少网络、业务系统中断产生的影响,保证其安全稳定的运行,已经成为河南省水利信息化应用管理的当务之急。
1 河南省水利业务系统高可用需求分析
在网络层,河南省水利厅信息网络建设了省水利厅至18个省辖市水利(务)局、10个省直管县(市)水利(务)局、12座大型水库、26个厅属单位及124个县(市、区)水利部门的计算机网络系统,实现省、市、县三级计算机网络系统的互联互通,并与水利部、济南军区、河南省委、省政府、省气象局、省国土资源厅等相联,但带宽非常有限。
在业务应用层,河南省水利业务系统从2010年开始建设,现已完成河南省水利厅门户网站、水利综合办公系统、网上行政审批系统、水利电子邮件系统等水利电子政务系统,以及防汛抗旱决策指挥系统、山洪灾害系统、水资源管理系统,水利普查系统等重要业务系统,承载着河南省、市、县三级水利机构的日常办公、山洪预警、水文监控、水资源监测等工作,为越来越多的河南省水利业务提供基础支撑。这其中的业务系统大多数都是涉及全省范围的业务,但却都是在单机上运行,如果出现业务系统服务器硬件或服务故障,都会等待服务器配件到货或从网络层逐节点查找原因,甚至会重新搭建服务器环境、重新配置程序,这时间就不是半天、一天能恢复正常运行的。
为提高业务系统的服务质量、减少业务系统中断时间,梳理河南省水利业务系统的实际情况,按照容灾的等级要求,河南省水利业务系统容灾平台高可用的需求如下:第一,生产端服务器发生故障时,容灾端服务器按容灾等级通过自动/手动方式实现一个或多个应用的接管,关键业务系统做到自动的应用接管。第二,容灾备份的一致性校验。第三,生产端及容灾端网络的最低带宽的快速传输。
2 河南省水利业务系统容灾平台高可用设计
容灾的等级标准是按恢复点目标RPO、恢复时间目标RTO两个指标来划分。RTO是针对服务丢失,从业务系统故障开始,到业务系统恢复正常之间的时间段。RPO是针对数据丢失,指业务系统和应用数据恢复正常后,系统及生产数据能恢复到过去的哪个时间点。
2.1 总体目标
河南省水利业务系统容灾平台高可用能在现带宽网络环境下快速地容灾数据复制与传输、跨多网段应用接管,实现对业务系统的按需切换。
根据河南省水利厅的实际业务系统环境,业务重要性和部署方式不同,分级对现有业务进行设计。其核心业务系统的应用与数据十分重要,RPO和RTO要求级别较高,不仅要保证数据不丢失,而且在发生故障时,也需要快速地接管应用,保障业务系统连续性,因此要求RPO≈0、RTO<5m;对于一般的业务系统,不涉及下面市、县,数据变化频率不高,而且是在内网运行的,要求RPO≈0、RTO<120m。
2.2 总体架构
分析国内外高可用容灾技术实现,经过详细的探讨研究,现河南省水利系统业务部署在不同的网段内,为实现高可用,容灾平台通过对生产端服务器业务应用、服务器等资源的状态进行实时监控,在发现业务应用突然异常停止(如业务应用异常退出、服务器断电、硬件故障等)、或者达到需要切换的条件时(如生产端服务器资源即将耗尽、软硬件升级等),通过负载均衡设备自动或者手工将应用切换到容灾端服务器上,实现业务多种模式的加密高效率地传输、跨网段的业务系统双活。如图1所示。
图1 河南省水利业务系统容灾平台高可用总体架构图
2.3 实现技术
2.3.1 窄带宽网络环境下容灾数据快速复制与传输技术
数据复制与传输技术是容灾方案设计中最基本也是最为核心的技术。传统的数据容灾和备份技术,是对生产端文件系统的关键数据,进行定期的完全或增量备份,并使用去重技术减少对存储空间的耗费,它存在着为了保证数据一致性,需要对生产端设备相关状态进行暂时冻结或进行快照,然后再进行定期的完全或增量备份,无法在用户使用过程中实时捕获增量修改,不能保证数据的同步;另一方面需要考虑使用额外的数据来满足去重技术,增加了系统资源和处理开销。因此备份的时间粒度和系统开销需求都不能满足实际。经过多方的沟通、测试,容灾数据复制与传输功能最终选择基于字节级的复制技术及数据序列化传输技术。一方面它可以通过旁路式监听源端的数据变化,以最小字节级增量数据捕捉方式,将生产端字节级的数据变化量实时的容灾复制,不需对生产端设备相关状态进行暂时冻结或进行快照。另一方面字节级的复制技术对生产端服务器计算资源占用可以忽略。仅仅是旁路捕获数据,通过旁路式截获生产系统的数据变化,所有的数据都是从内存中获得,处理和复制正在使用的文件与目录时,无需要求关闭该文件,相关的应用仍然保持在线和活跃运行状态,不会对您的工作有任何负面影响,因此数据复制过程不占用主机的IO资源。第三方面基于字节级的数据复制粒度最小到字节,数据保护和恢复粒度可以做到毫秒级,因此对于带宽资源的要求也是极低的。综上容灾数据的快速复制、传输,在不影响现有生产端应用的前提下,保证了信息在整个过程中的安全及完整性。
2.3.2 基于负载均衡的业务应用无缝切换技术
分析国内外跨网段容灾技术,目前有3种技术方式:一是基于网络虚拟化技术。通过使用MAC地址路由规则,打通生产端与容灾端的二层通信,实现IP地址跨数据中心的迁移,从而有效满足了生产端与容灾端资源调度和虚机迁移的要求,但是网络虚拟化技术对硬件要求较高,投资成本较高,对当前网络环境及设置改动较大,不符合实际建设需求。二是基于VPN技术。利用VPN技术使主机集群二层可达,缺点是维护复杂,系统节点较多的情况下维护更复杂,不支持H.232视频协议等,经过详细调查研究,放弃此解决方案。三是基于负载均衡技术。采用负载均衡技术,旁路接入对当前网络环境没有任何改变,利用负载监控业务端口或静态页,当生产端应用异常或出现各种异常(如服务异常停止、网络异常、硬件故障、生产应用宕机维护)而导致应用不可用时,将相关的应用立刻切换到容灾端服务器上,由容灾端服务器上的应用来提供服务,实现业务系统的无缝切换。根据河南省水利厅网段较多、网络复杂及安全性的要求,经过详细的研究与测试,关键业务系统最终采用负载均衡来实现业务的双活。
2.3.3 信息一致性技术
文件系统的I/O操作是序列化的,这些操作日志必须保持它原有的操作次序,如数据库文件,在I/O操作被截获时为每个操作日志进行序列化排序,要求对数据的截获、传输、存储严格的按源序处理,容灾端收到I/O操作日志后对个别乱序通过日志记录中的数字序号重新将I/O操作序列化,与生产端序列严格一致后再提交到容灾端写入,从而保证两端信息的一致性。
3 结语
根据河南省水利信息化业务系统现状和特点,经过针对性研究,利用最新容灾技术,采用最经济的手段建设一套复杂网络下业务应用高可用的容灾平台,为河南省水利信息化业务系统提供完善安全的容灾体系。
从长远看,业务高可用的价值并非仅仅是业务系统应对灾难、提高生存能力的工具,而是已经成为提升政府服务质量、承担社会责任的重要保障;是水利系统提高政府办事效率和透明度,减少行政环节,节约行政成本,适应需求变化的重要基础。
[1]马献章.数据库云平台理论与实践[M].北京∶清华大学出版社,2016(1).
[2]武春岭.数据存储与容灾[M].北京∶高等教育出版社,2015(1).
[3]肖良华.从灾备到双活[J].金融电子化,2013(11)∶55-56.
[4]詹浩,李阳,郗新江.大型数据中心“双活”应用探析[J].金融电子化,2013(8)∶69-70.
[5]韩兆云.综合业务异地灾备系统三层异构云服务平台[J].金融电子化,2014(9):70-72.
TP311.5
A
1673-8853(2017)09-0092-02
2017-6-16
编辑:刘 青