GeoEast 服务器软硬件故障的恢复及用户应用优化
2019-01-22宋柏芬吴显凤孟繁举
宋柏芬,吴显凤,孟繁举
(大庆钻探工程公司物探一公司研究院 黑龙江 大庆 163357)
0 引 言
IBM集群系统是我院2009年引进的一套高性能地震资料处理运算系统,它包括512个计算节点,24个数输入输出节点,6个存储节点和5个管理节点。在管理节点上安装CGG ,GeoEast等2套应用软件,担负着地震资料处理生产任务,经过近十年的生产运行,集群系统老化,故障率逐步升高,就GeoEast服务器即dqhm04管理节点而言,担负着VSP垂直地震剖面处理系统和地震资料处理系统两大功能,一旦出现故障势必影响生产任务的正常运行。
1 Geoeast软件服务器硬件故障
故障现象:安装Geoeast 软件的管理节点dqhm04服务器突然就能启动了,当试图进入系统盘管理程序也无法进入,故障现象显示如图1所示:
图1 dqhm04服务器启动信息
2 Geoeast服务器无法启动的解决办法
针对上述故障现象,首先,我们查找相关维修资料,并根据以往的维修经验,初步判断是该管理节点的系统盘或者是磁盘控制器坏了,我们采取由浅入深的办法一步一步查找,先是把dqhm04节点的系统盘,安装在原来的用于HP XP2400磁盘子系统管理的域名服务器dqfm02上,系统能够正常启动,判断不是系统盘本身的原因;这时又把dqfm02上的系统盘放到dqhm04上,系统仍然出现上图所示的故障现象,此时我们可以很肯定的判断是磁盘控制器故障了,打开机箱发现磁盘控制器是集成在主板上的,因此无法单独更换磁盘控制器,只能把dqhm04节点的系统磁盘移到dqfm02节点上,因为我们知道GeoEast软件是安装在sdb1上,即外置盘上,所以必须把dqhm04节点的外置盘也移到dqfm02节点上,不用重新构建RAID1(内置盘是RAID1)和RAID5(外置盘是RAID5)让磁盘控制器自动识别磁盘[1,2]。
磁盘配置完成后,重新开启。这时系统启动很慢,因为要重新配置硬件,系统自动配置硬件完成后,发现此时的dqfm02节点和所有网段任何网都是不通的,而且dqfm02节点是HP XP2400磁盘管理的域名服务器,只配置一个168的存储网段,并且这个存储网还是用eth1和eth2绑定的,而dqhm04系统里定义了三个网段155(管理网段eth0),153(计算网段eth1),159(外网eth2),并且这三个网段在交换机上有属于不同的VLAN(交换机上的虚拟地址池),我们不能简单把dqfm02网口定义三个地址,我们查看其它管理节点的网络地址确保这三个网口必须和其他管理节点的网口网络地址定义的规律相同,只有这样才能保证不同的网段属于不同的VLAN,而且还能实现和系统其他节点相通,具体定义如下:
vi /etc/sysconfig/network-script/ifcfg-eth0
DEVICE=eth0
ONBOOT=yes
TYPE=Ethernet
NETMASK=255.255.0.0
IPADDR=155.10.100.204
USERCTL=no
IPV6INIT=no
vi /etc/sysconfig/network-script/ifcfg-eth1
DEVICE=eth1
BOOTPROTO=none
TYPE=Ethernet
ONBOOT=yes
IPADDR=153.10.100.4
NETMASK=255.255.0.0
USERCTL=no
IPV6INIT=no
vi /etc/sysconfig/network-script/ifcfg-eth2
DEVICE=eth2
ONBOOT=yes
TYPE=Ethernet
ONBOOT=yes
IPADDR=153.10.100.4
NETMASK=255.255.0.0
USERCTL=no
IPV6INIT=no
配置完网口之后,继续配置网关,具体操作如下:
vi /etc/yp.conf
domain dq2nis server dqhm01
所有网络配置完成后,重启机器。当启动正常后我们用如下的命令查看网络进程是否正常。
# service network status
#serviceypbind status
当这些进程都起来后,此时已经完成对该服务器系统的恢复[3]。
3 GeoEast应用软件故障现象
根据实际生产的需要对GeoEast软件的有关用户进行迁移配置。具体操作步骤如下:
GeoEast软件原来配置在IBM集群高机柜计算节点上,VSP和CGG处理软件作业经常同时应用这些计算节点,这样同一个计算节点既有VSP又有CGG处理作业,经常多个作业叠加,节点负荷过重,导致作业运行很慢,经过权衡考虑分析。考虑到IBM集群矮机柜工作量相对较少,在矮机柜上增加了10个计算节点,把VSP这部分作业从高机柜分离出来,让VSP用户的作业在矮机柜上运行,既解决工作量的平衡,又方便了用户,也不会使作业运行的很慢[4]。
系统配置完成后,经与GeoEast软件开发商沟通后,又重新申请了10个节点的许可,交付处理用户使用,当用户启动GeoEast软件时,出现如下信息:
[geoeast@l4b2n05~]$geoeast &
[1] 22803
[geoeast@l4b2n05~]$
The expiration date of GSPS’s license is
GeoComAgent is ready!
153.99.0.4
153.99.0.5
Please wait for opening projects ...
Openpeojects OK!(time: 48ms)
从启动信息看并没有看到任何错误,当点开View Jobs页面时,如图2所示,相应界面是空的。
打开Work Flow Menu 里的Add New Flow窗口也是空的,如图3所示。
图2 浏览作业示意图
图3 作业流程菜单
4 GeoEast软件故障处理办法
重启GeoEast软件信息,并没有看到什么故障信息,再进一步进行排查,首先检查GeoEast软件相关进程,根据/etc/rc.d/rc.local
dqhm04# more /etc/rc.d/rc.local
export GEOEAST=/gssoft/GEOEAST/geoeast2.5.3
/gssoft/GEOEAST/geoeast2.5.3/bin/gsm/rcstartOracle
/gssoft/GEOEAST/geoeast2.5.3/bin/gsm/rcstartGeoCom
/gssoft/GEOEAST/geoeast2.5.3/bin/gsm/rcstartGJSS
/gssoft/GEOEAST/geoeast2.5.3/bin/gsm/rcstartTMS
文件定义的相关进程,逐个检查都是正常的,检查用户帐号也没问题,再检查用户所用的数据盘也是正常的,经过反复查找,当检查许可证文件时,发现新加进去的计算节点没在里面,问题终于找到了,于是把新增的节点再都加进去,重新启动管理节点和计算节点,交给处理用户做作业,这时系统运行正常,启动作业流程菜单时如图4所示[5]:
图4 作业流程菜单
5 VSP用户应用优化
为了方便用户,同时也为解决以前遗留的问题,原来VSP用户应用GeoEast和CGG用户软件时需要两个环境变量的帐号,用户操作过程较为麻烦,于是又进一步对VSP用户的HOME目录编译一个如下所示的脚本文件:
cd /home/vsp***/
vi .shrc
if ( `hostname` == l4b2n12 || `hostname` == l4b2n13 || `hostname` == l4b2n14 ) then
source /cgg/jobmgr/init/gvt_cshrc
else
setenv GEOEAST /gssoft/GEOEAST/geoeast2.5.3
source $GEOEAST/configs/.cshrc
endif
#echo $HOSTNAME
加入这个文件之后,这样用一个统一的账号就可以既能应用GeoEast软件,又能应用CGG软件,对用户来说,省去经常更换用户账号操作的麻烦,大大方便了操作处理过程,同时也提高了生产效率[6,7]。
6 结 论
通过这两次故障分析和总结,对在系统盘盘控故障以及GeoEast许可证故障的查找和排除积累了一定的经验和基础,再出现这样类似的问题时,将会很快找到原因并给与解决,为油田地震资料的处理解释生产赢得宝贵的时间。针对VSP用户应用GeoEast软件和CGG软件环境变量的的优化,使VSP用户应用GeoEast地震应用软件和CGG处理软件更方便灵活,同时对这两套软件有了更深刻的理解,提高处理过程的技术水平,为今后更好地为处理解释生产的保驾护航打下坚实的基础,提高了解决与处理实际问题的能力。