利用存储系统恢复服务器系统
2016-11-16龙志勇
龙志勇
摘要:在安装RAID5 的单服务器的工作环境中,迅速安全地恢复崩溃的操作系统是十分必要的。利用存储系统恢复崩溃的操作系统和业务数据库,是一种安全可行、用时最少的恢复方法。
关键词:服务器故障;存储系统;备份;恢复
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)25-0195-02
Abstract:In the work environment of the single server installed RAID5, it is very necessary to quickly and safely restore the operating system. It is a safe and feasible method to use storage systems to restore a crashed operating system and business database.
Key words:server fault;storage system;backup restore
在信息化的时代,服务器的正常运转是至关重要的,一旦出现故障,将导致应用系统停止运行,业务停办。因此,运维人员如何在最短时间内采取最优方法,安全地将服务器系统恢复正常,并将应用系统恢复运转,把业务停办的不良影响减小到最小程度,是十分关键的。
某日早上8点,体检中心来电反映多个体检工作点不能使用从业人员体检系统,体检大厅聚集了300多人,客户怨言很多,要求我部门立刻解决故障。刻不容缓,笔者马上进行故障排查。
1 设备参数及工作环境
本单位的服务器是IBM X460,安装有IBM serverraid-8iRAID卡,并做了RAID5,操作系统是windows 2000 server,数据库系统是SQL 2000,数据库是从业人员体检数据库,有全市4万多从业 人员的数据;存储系统是爱数PX1200,该存储系统基于CDP持续数据保护技术,支持Windows平台下的SQL Server及支持完整的RAID 级别的实时复制。
IBM服务器和爱数存储系统在本单位局域网中同处于一个VLAN中,同一个网段。IBM服务器的IP是192.168.0.27(以下称为27服务器),爱数存储系统的IP是192.168.0.253,网关都是192.168.0.254。
2 故障原因分析
首先到一个体检工作点检查,发现确实不能登录系统,然后ping 27服务器,网络链路是通的;随后又检查了两个工作点,情况一样。因此断定网络链路没有问题,应该是27服务器出故障,于是回到机房检查,发现27服务器居然是关机状态。问了后勤部门,才知前一天晚上长时间停电,今早6点才恢复供电。笔者估计,单位的在线式UPS一定是有问题了,不能在停电的时候供电给27服务器,致使27服务器关机了。UPS的问题先不处理,当务之急是在最短的时间内安全地把27服务器恢复正常。于是打开27服务器,谁知系统蓝屏,不能进入windows 2000 server!重新启动27服务器两次都是如此。笔者断定,应该是由于突然停电造成windows 2000 server的系统文件损坏,导致不能正常进入系统。
3 故障恢复方案的选择
1)一般的系统软故障恢复
在一般情况下,对于系统产生的软性故障, 在开机时按F8快捷键,在BIOS后就会有安全模式等系统选项,其中就有windows最后一次正确配置。选择后等待加载完成后,可正常进入系统。但这次试了两次都不能恢复系统 ,而且不能进入安全模式,再次证明windows 2000 server的系统文件损坏了,因此必须选择其他方式恢复了。
2)GHOST恢复
对于一般的微机故障,可以用GHOST迅速地恢复系统,但服务器就不一定能由GHOST恢复系统。由于本单位的27服务器安装了IBM serverraid-8iRAID卡,并建立了RAID5, GHOST在DOS下无法加载阵列卡驱动,无法识别阵列卡,因此不能用GHOST软件做27服务器操作系统的备份和恢复。
3)重装系统
重新用Wwindwos 2000 server安装盘安装操作系统肯定是可以解决故障的,但在安装过程中必须解决IBM serverraid-8iRAID卡的驱动问题。由于单位搬家,RAID卡的驱动找不见了,在IBM官网也找不到;之前第一次安装windwos2000 server时,用NLITE制作的整合了RAID卡驱动的windwos 2000 server盘也找不到了。即使找到那张安装光碟,重新安装完操作系统后,还要安装SQL,部署应用系统。整个过程估计要一个工作日才能完成。这是正在等待的300多个客户不能允许的。
4)利用存储系统恢复
之前单位购置了爱数存储系统PX1200,在启用PX1200后,我们用它备份了27服务器的操作系统及应用系统,并对SQL数据库作了实时备份(不包含从业人员体检数据库)。由于27服务器一直在运行关键业务,所以做完备份后,一直没有验证所做的备份是否能成功恢复。
经过分析,对于这次27服务器故障,笔者决定用爱数存储系统PX1200来恢复操作系统,验证一下PX1200是否能在最短时间内安全地将操作系统恢复,无损地恢复数据库,将故障造成的影响降到最小。
4 恢复过程
1)在27服务器上接上外置光驱,并将爱数存储系统自带的系统恢复光盘放入光驱通电开机,选择光驱启动优先,恢复光盘在调用一连串环境参数后,进入“恢复系统”。
2)本地网络配置:在请选择你需要的网络设备中点击eth0,再点击使用下面的网络地址,填写服务器IP地址:192.168.0.25,掩码:255.255.255.0,网关:192.168.0.254。单击“下一步”。
3)设置管理控制台信息:此处应填写介质服务器即爱数存储系统的相关配置信息。填写介质服务器地址,192.168.0.253,端口为9900(此端口为管理端口),登陆账号为admin,密码123456。单击“下一步”。
4)选择需要恢复系统的介质服务器-备份任务-客户端-时间点:在这个设置窗内,依次双击,树型选择项便会层层展开,直至出现所做系统备份的时间点并点击选择。单击“下一步”,在确认恢复窗中,点击OK。
5)创建分区:在这个窗内,会显示27服务器硬盘的相关信息,中间是27服务器硬盘的原有分区,编号从0-TH开始,先选择0号分区,再点击右侧的创建分区,此时会弹出一个分区确认框,点击OK。还原过程中,会提示“是否恢复在系统还原过程中的IO操作”,选择NO,因为考虑到系统已经崩溃,业务系统没有出现数据IO操作,之后会提示恢复完成,是否重启,点击“yes”。
很快27服务器的操作系统恢复完成,整个过程大约20多分钟。等系统进入后,检查了一下SQL 2000,能正常运行。由于此次恢复系统,只是还原27服务器的C盘,不影响之前其他盘的数据,存储在其它盘从业人员体检数据库丝毫不受影响。
5 应用数据库的恢复
由于当时备份系统时,并未在SQL加载从业人员体检数据库,因此在27服务器操作系统恢复后,还得将此应用数据库附加上去。附加数据库过程非常简单。打开SQL2000的企业管理器,右健点击数据库,依次选择所有任务、附加应用数据库即可。随后对应用系统进行了测试,完全能正常运行,而且最后存入的数据也没有丢失。
至此,这次由于操作系统蓝屏而导致27服务器不能正常运行的故障得以完美解决,整个恢复过程大约30分钟。利用爱数存储系统恢复服务器系统确实是一种快捷、安全地方法。
6 总结
在这次27服务器系统故障的解决过程中,由于很快地恢复了应用系统的正常运行,将这次故障的影响降到最低,所以没有演化成重大的工作事故。在这次恢复过程中,笔者常常地感到:1)作为一名运维人员,必须将所有设备的资料和驱动盘保管好;2)故障处理从软到硬,从最简单的情况入手;3)面对故障现象不慌乱,保持头脑清醒,冷静的判断问题并充分利用拥有的资源,选择最优的解决办法,才能在最短的时间内解决故障。4)运维人员要定期检查各设备的运行状态,熟悉各设备的功能及各设备的配置参数,发现问题要及时处理。本次故障的产生就是没有及时发现在线式UPS不能在停电时供电而引起的。