服务器更换硬盘后的同步问题
2019-07-10河北王春海
■ 河北 王春海
编者按:笔者遇到客户服务器在更换硬盘后出现的数据没有同步问题,笔者在分析故障之后发现客户在之前服务器更换硬盘时就出现了很多错误,导致后续的一系列问题。
近期在给一个用户更换服务器硬盘时发现,一是RAID配置错误,使用300GB的硬盘给600GB的磁盘做热备,另外是更换的硬盘型号不对导致数据没有同步。
新近入职的管理员如果接手的有旧的服务器,有时间应重点检查一下硬盘及RAID信息,看是否有离线的硬盘或配置不合适的地方好及时纠正。
图1 两块硬盘亮黄灯
图2 300GB的硬盘被配置成了全局热备
故障描述
今年4月上旬,有个单位的两台服务器硬盘损坏了3块硬盘,客户让送3块600GB的硬盘并帮着给更换一下。
到了现场笔者看到了这两台服务器,其中一台服务器有两个硬盘亮黄灯(如图1所示),另一台服务器有1个硬盘亮黄灯。
仔细一看,这两台服务器,每台都配置了1块300GB硬盘、3块600GB硬盘。当时比较奇怪怎么有这种配置,难道这块300GB的用来装系统、另3块600GB的做RAID-5存 数据?
故障分析
当时笔者与客户沟通,图1中的这种坏了两块硬盘的可能需要做数据恢复了,因为3块硬盘的RAID-5中同时坏两块,此时换盘是不行了。当时这台服务器已经不能启动了(图2中的服务器还在使用,能够进入系统)。
将图1中损坏两块硬盘的服务器,在打开电源并进入到RAID界面后,看到01、02槽位的硬盘为Failed状态,按下“Ctrl + N”组合键进入PD Mgmt之后整个人就有点晕了,槽位0的300GB硬盘竟然被配置成了热备磁盘!如图2所示。
客户说这台服务器已经使用多年,原来也坏过(一块)硬盘,换了之后就继续使用了。这次是系统不能用了才发现坏了两块硬盘的,以为换上就能继续使用了。当时这台服务器买的时候是1块300GB的硬盘,财务软件公司的人说一块硬盘不安全,又买了3块600GB的硬盘做的RAID-5,是软件公司的人给配置的。
这得多有水平的人给配置的呀!算了,不说了,想办法恢复数据吧。
图3 槽位3的硬盘是年前换上的
图4 硬盘没有同步
图5 硬盘数据开始同步
故障解决
另外一台服务器只坏了一块硬盘,换上硬盘之后数据开始同步。因为看到的第1台服务器RAID配置不合适,笔者重新启动服务器进入RAID卡配置模块,果然这块300GB的硬盘也被配置成了热备磁盘。同时新换上的硬盘已经开始重组数据。
这时客户表示,还有一台服务器,年前换了一块硬盘,这次来了顺便帮着给检查一下,这一检查就又发现新的问题了。
第三台服务器也是3650 M5,在另一个机房,槽位3的硬盘是年前换的,这个机房明显环境好一些,服务器硬盘上的灰尘也少一些,如图3所示。
重新启动进入RAID卡,300GB的硬盘还是配成了热备磁盘,又是熟悉的配方、熟悉的味道。
但是,槽位3的硬盘是Unconfigured Good,这块硬盘没有同步,如图4所示。
仔细看图3,发现新换上的硬盘托架上的序号和原来的托架序号不同。好在还有两块新买的硬盘暂时没有用上,取下年前购买的硬盘,换上这次带来的硬盘,此时硬盘开始重组数据,此时新换上的硬盘黄灯、绿灯交替闪烁,如图5所示。
在RAID界面中数据开始重组,一个多小时之后数据重组完成,硬盘绿灯闪烁,此时这台服务器检查完成。
后期建议,如果客户需要热备磁盘,应该是每台取下原来300GB的硬盘,添加一块600GB的硬盘并重新配置成热备磁盘。