Sun v880双机热备份系统的技术维护
2013-04-29罗继云
罗继云
摘要:随着计算机科学的迅猛发展和推广,各行各业以及人们日常生活越来越依赖计算机和互联网。在应用广泛的同时,其安全性和稳定性也越来越被人们所重视。而大家关注的焦点又是数据的安全性,故而数据备份手段成为热点问题。目前,解决这一问题的最有效手段就是双机热备份技术。
关键词:双机热备份; 廉价冗余磁盘阵列; 心跳线
中图分类号:TP309.1 文献标识码:A 文章编号:2095-2163(2013)05-0079-03
0概述
为提高系统的可靠性与可用性,以及数据的安全性,服务器维护人员需时常对数据进行备份。但是随着技术手段的不断提升以及网站规模的几何数增长,传统备份手段不足以满足实际工作要求,且无法处理突发事件。双机热备份技术应运而生,概括来讲就是将两台服务器连接起来,共享数据。当其中一台服务器发生故障时,由另外一台服务器承担服务、同时关闭故障服务器以方便维修。双机热备份技术有效防止了服务器意外故障带来的数据丢失、用户无法访问等现象发生,同时节省了人力。故此,双机热备份技术已广泛应用到互联网和航空航天等众多科研领域。
1双机热备份的概念
所谓双机热备份,就是将同一任务和数据分配给两台通过线路直接相连的服务器[1]。在不通过人工干预的情况下,当一台服务器遇到故障导致服务停止时,由另外一台服务器继续工作,保证系统不间断提供服务。在双机热备份应用中,根据两台服务器的工作方式不同,可分为三种工作模式:主从模式、互备模式、并行模式[2,3]。
1.1主从模式
这种模式下的两台服务器分别称作主服务器(active)和备服务器(standby)。一般情况下,主服务器处于工作状态,备服务器则处于后补状态,起着后备作用。为保证数据即时同步,两台服务器共享磁盘序列存储系统,或者将数据,包括数据库数据同时写入两台服务器。而当主服务器发生故障时,通过软件监听或者人工方式激活备服务器,以此保证系统在极短时间内恢复工作,且不影响用户正常使用。主从模式则如图1所示。
1.2互备份模式
这种模式下不再区分主或备服务器,而是两台服务器分别运行其上的应用,并同时相互备份另外一台服务器的数据。当事故发生时,故障服务器的应用由另外一台服务器接管,并且应变相对迅速,从而保证了用户对于系统的持续使用[4]。只是这种方式对服务器的配置要求较高。
并行模式也叫双工模式,一般用于网络的大规模应用。两台服务器同时运行且执行相同的应用,这样既保证了整体性能,也实现了负载均衡和互为备份,此时就需要利用磁盘阵列存储技术,如图2所示。
双机热备份有两种实现方式,分别是共享方式和软件同步数据方式[5]。其中,共享方式指两台服务器共享同一个存储设备(一般是共享的磁盘阵列,如RAID或存储区域网SAN),通过双机软件实现双机热备。软件同步数据方式则是将数据同时存放到各自服务器中。在active/standby模式工作中,两台通过心跳线(heartbeat line)连接的服务器共用同一个虚拟IP对外提供服务,一般情况下由主服务器提供服务,其中的心跳线用来侦测主服务器(active服务器)工作状况。当事故发生时,备服务器(standby服务器)接收由心跳线传送的相关信息而做出反应,进行平滑切换,接管主服务器(active服务器)的服务,并且成为新的主服务器。
心跳线是主、备服务器之间的错误检测机制,主从服务器之间互相按照一定的时间间隔发送特定的通信讯号,周期性地检测各个节点的状态,包括系统状态和应用状态。如果连续一段时间(超过约定时间周期)内没有收到心跳信号,则双机热备软件判定系统发生故障,并切换主备服务器。心跳故障检测手段主要有两种:串口通讯方式和基于TCP/IP的方式。两台服务器可以直连网线,也可以通过交换机连接。
双机热备份技术需要通过双机或集群软件来实现。双机软件采用结构化设计,通常,包含以下几个模块:
(1)双机状态的管理模块,负责检测双机的工作状态,[LL]以及对故障状态进行判断;
(2)双机功能的执行模块,负责执行管理模块发出的双机调整切换命令等;
(3)实现双机系统的客户端配置管理工具,通过该模块对双机系统实现远程配置、管理维护等功能。
双机软件工作流程大致如下:软件启动时,首先读取双机系统的配置文件,在该文中描述了双机系统中各节点的网络信息,硬件描述以及任务的定义等参数;软件的核心程序根据配置信息,进行双机系统的状态重组,建立双机的初始状态;在节点初始状态建立后,管理模块根据当前网络状态的信息,对双机进行调整并分配网络资源,使双机中的主节点获得对外提供网络服务的资源,同时启动节点监控功能,对所启动任务的关键进程进行监控,保障对外提供服务的资源健康有效。当上述资源建立完成后,双机系统即进入正常运行状态。
当系统中有节点故障时,双机管理模块根据双机当前的状态和该故障节点在双机中的角色做出双机系统是否切换。当该节点为主服务器时,双机系统会自动将属于该节点的资源和任务移交到备服务器上,保证网络的正常运行。如果发生故障的节点为备服务器,双机软件提出报警后,将任务的移交进行封锁,直至备服务器故障修复,重新进入双机系统,管理模块检查到该故障修复后,对当前的任务进行解锁操作。系统重新进入正常运行状态。
3RAID系统
廉价冗余磁盘序列RAID(Redundant Array of Inexpensive Disks)将很多磁盘驱动器通过一定的逻辑方式联系起来,并将其当作一个完整的逻辑驱动磁盘进行使用[6,7]。常用RAID级别如表1所示。RAID系统优点如下:
(1)通过将若干物理磁盘变成一个单独的逻辑卷来使用,在保证了容量的前提下,降低了成本;
(2)通过写入多个磁盘,共同读写这些磁盘,提高了读写速度;
(3)通过镜像或奇偶校验来提供容错功能。
系统搭建在NT上,其核心为磁盘阵列和HA软件,服务器主要数据放在子盘序列中,主服务器(active)和备服务器(standby)只安装本地系统文件、HA和数据库。系统启动后,NT Cluster调用HA manager,并启动其他相关程序监听管理服务系统。当HA在一定时间内未能接收到另一服务器的心跳包时,则立即做出反应,将服务由主服务器转移到备服务器。这一过程全部由系统自动完成而无需人工干预,完美实现服务器平滑过渡,更加节省了人力资源。
4系统特点与总结
现分析双机热备份与磁盘阵列柜互联的结构特点如下:
(1)通过软件与硬件结合将数据与系统分离;