428XL仪器服务器硬盘故障处理
2020-11-05殷来明
殷来明
(中石化石油工程地球物理有限公司装备管理中心 江苏 南京 211100)
0 引 言
近年来随着地震勘探的深入推进,勘探装备设备技术也日渐提高,而法国Sercel公司生产的428XL仪器,由于硬件老化、施工条件多变等因素,在施工过程中经常出现死机、卡顿、重启后不响应等问题,导致仪器操作过程极度缓慢甚至无法开工。这样单炮采集所需时间明显增加,严重加大了地质勘探成本,制约了震源施工工程的顺利开展。鉴于此,笔者结合自身的仪器操作实践与思考,论述了428XL仪器硬盘故障的排查及解决过程,从而为可控震源生产操作中的相关技术难题的解决提供有益参考。
1 故障现象及原因分析
工区处在沙漠腹地,地形复杂,条件恶劣。沙丘落差大,道路崎岖不平,斜坡处沙坑遍布,且经常有强沙尘暴天气,沙尘等细小颗粒物极易进入仪器操作间内。二维施工中仪器经常搬家,途中颠簸严重,对仪器硬件设备的考验非常大。
故障初期阶段,在施工过程中发现428XL仪器经常突然死机、卡顿。正常放炮的每一步操作过程都变得非常缓慢,不够流畅,且单炮采集所消耗的时间明显变长,平均单炮时间是正常情况下的好几倍。经过对仪器的参数设置、硬件连接等检查也未发现问题,在服务器重启过后又恢复正常。后期情况越发严重,仪器死机、卡顿频率提高,且重启过程也变得缓慢,比正常情况下重启时间更长,最后甚至需要重启好几次才能启动成功。
综合以上问题情况,判断该故障原因可能是:服务器主机内存松动[1];仪器电源等线路接触不良[2];单线接收道数超过428XL单线带道能力设计,造成非实时传输;系统软件崩溃;服务器硬盘故障。
在初步判定可能的问题原因后,采用排除法进一步检查分析。
首先,检查除服务器外的各配套硬件是否工作正常,尤其是可能会引起死机、数据传输的部件,比如网络交换机,网线连接,VE464箱体与服务器之间的连接等。系统能够启动时,在服务器上打开一个终端,输入“ping”命令,检查网络连接情况。经过检查发现,系统间各硬件之间网络连接情况良好。且通过对硬件的检查,发现各部件外观良好,没有破损、断线、短路情况。
其次,在带道能力方面,现场实际单线采集为420道@1 ms@ 8 Mbp,不影响实时传输。如果单线超过428XL硬件设计的最大实时采集能力[3](大线数传输率:1 000 道@ 2 ms@ 8 Mbp)的话,428XL表现是不能实时传输,在数据采集过程中传输较慢,与目前的情况存在明显区别。
排除以上两点情况之后,进一步检查428XL服务器内部硬件情况。将仪器关机、断电,将服务器从固定架上取下检查,检查外观无误后,逐一对各种连线接口及内存条检查,并用橡皮擦拭干净,重新装好。启动时开机画面正常,开机硬件检测正常,内存工作正常。在画面跳转到Liunx红帽子系统启动时,服务器又卡住。再次重启,在出现“Press any key for Option ROM Massages”画面时,摁任意一键,进入硬件信息界面,在硬盘状态信息中发现,正常应该显示3块硬盘(如图1)的状态信息,此时只有2块硬盘(如图2)的状态信息显示(即只显示设备ID:0、1,没有2)。再次断电,对服务器硬盘检查、重接、重启。启动过程中留意服务器运行情况,发现某硬盘发出异常响声,硬件状态信息正常,启动过程又停在红帽子系统启动界面,如此反复多次。
图1 硬盘正常状态信息
图2 硬盘异常状态信息
在多年施工经验中,428XL问题大多由软件引起,硬件方面一般以固件松动较多。出现如此情况,推断问题原因有两点:一是系统崩溃,需要重装;二是某块硬盘故障。进行进一步排查,先重装系统。重装系统过程中发现,每一步操作变得异常缓慢,需要的时间非常长,每两步操作之间的时间达到了十几二十分钟之久。加上服务器启动时的硬盘异响情况,推断服务器某块硬盘有故障。
2 解决方案
经过初步检查发现是硬盘问题后,进一步确定是具体哪块硬盘故障。因为小队设备有限,缺乏相应的专业人员和硬盘检测设备。考虑到上述情况,决定将硬盘逐块拔下,分别重装系统,以装机时速度反应情况判断哪块硬盘有问题。经进一步检测,最终将有问题的那块硬盘找出。
428XL服务器主机有3块硬盘,分别对应不同的用途[4],而且硬盘接口有别于普通硬盘,此时1块硬盘损坏、无法使用。根据现场实际情况,提出以下3个解决方案。
1)重新调拨一台新的428XL服务器主机,但耗时较长。
2)购买新的硬盘。但有2点难处:一是采购适配硬盘困难;二是耗时较长。
3)在缺少硬盘的情况下,对428XL服务器进行重装系统。
排除前2个方案后,计划采用第3个方案。此方案也存在一定的风险,属于非正常装机,428XL安装手册也没有相应的操作过程。先固定好428XL服务器硬件,准备系统重装。这里以SERCEL REDHAT Enterprise V5.8 (64 bit)为例(具体安装版本以现场实际为准),操作步骤如下:
前期步骤参照《428XL安装手册》进行[5]。
在第11步“In the partitioning window”中,对于“- Make sure the sda, sdb and sdc partitions are selected”一项,此时应该是确保sda,sdb两项被选中,因为没有第3块硬盘,其他参照手册。
第19步“Select /dev/sdc1. Click Edit. In the Edit Partitions: /dev/sdc1”窗口中,此时安装过程中应该没有此项设置,那么应该操作如下:
Click New. In the Add Partition window:
- Unselect sda.Only sdb should be selected.
- From the File System Type pull-down menu, select “ext3”.
- Type /var/dump0 in the Mount Point field.
- Choose the Fill To Maximum Allowable Size option.
- Make sure “Encrypt” is unticked.
- Click OK.
其他步骤参照《428XL安装手册》继续进行。
428XL系统重装完成后联机放炮测试,仪器工作正常,顺利解决难题。
3 注意事项
428XL仪器作为地震勘探的核心设备,要及时做好仪器的检修、维护工作,生产中更是需要做好保护工作,在操作中严格按照规范进行。大致来说,仪器的操作注意事项主要包括仪器车的停放、仪器的使用及维护。
1)仪器车的停放 仪器车停放要求平稳,尽量远离建筑物、高压线等具有干扰性的物体,保持仪器周围空旷开阔,仪器车停好后使用三角木防止溜车,接地线插好并浇水保证接地良好。
2)仪器的使用及维护 仪器的使用及维护须严格按照操作规范进行。428XL仪器是精密电子设备,使用还需做好防尘、防静电措施。仪器故障检查时为防止次生灾害发生,需对人体进行防静电措施。拆卸、检查仪器内部电子设备时手不能直接触摸电路,要持电路板的侧部。此次检查打开服务器箱体后发现内部布满灰尘,对内部器件散热及运行有一定的影响。尤其是进入硬盘内部的灰尘,在长时间运行后会对硬件造成不可恢复的损害。因此,要经常打扫仪器操作间,保证操作间干净整洁,禁止吸烟。
4 结束语
本文通过对故障现象的分析,从仪器的带道能力设计、硬件连接等方面逐一排查,确定为硬盘故障,并在缺少1块硬盘的情况下重装系统,解决问题,并给出此类仪器的使用注意事项,减少使用过程中的故障率。文中解决方案为临时方案,对服务器性能会有一定的影响,对于高精度三维等大型地震勘探可能会限于硬盘容量问题难以实施,最终仍得及时更换坏硬盘。