COM机报文分析及硬盘备份探讨
2010-04-14梁明治南京地下铁道有限责任公司
梁明治 李 宣 南京地下铁道有限责任公司
COM机系统近年的故障率开始呈现上升趋势,特别是近期,COM机归档问题以及COM机备机掉线问题尤为突出,对我们运营效率和服务质量造成了一定的影响。
1 COM机系统现状
由于COM机系统是建立在西门子专有软件基础上运行的,涉及计算机软件的知识产权,所以西门子对于软件的保护尤为突出,对于维护人员的培训仅仅局限于操作和简单的维护,每一次的软件升级完全通过我们与德国的一个专用网络直接控制COM系统升级,操作系统采用SOLARIS系统,而软件语言大多数采用德语缩写,使得我们几乎无法深入了解软件的内部结构。
西门子公司规模和结构决定了他们对于故障的反应时间不会很快,而对于我们这种服务性质的公司来说,保证运营的服务质量和效率就是第一位的,而如果设备出现问题得不到及时修复自然也就影响了运营服务,所以能够在最大程度上降低故障时间,减小故障的影响就是我们需要做的。
在上述背景下,通过我们自身的努力,深入研究其内在原理、规律,部分摆脱对西门子的依赖,对于保证运营效率,缩减运营成本,积蓄技术力量甚至为将来的替代产品做自主研发,具有深远的意义。
2 报文的自主分析
前些年当COM机出现故障后,我们做的仅仅是把故障的报文发送给西门子,由他们的专业人员分析结果并反馈给我们,由于故障率不高,没有造成太大影响,在故障反应的时间上,也没有太多要求,但随着今年故障率的直线上升,这种模式已经不能适应现在的趋势,在这种情况下,我们开始对于COM机的报文进行自主的分析,并取得了不小的收获。
2.1 COM机归档问题分析
COM机归档功能是将前一天的行车运行图进行存储,并通过磁带机保存在磁带中。
前一天的行车运行图存储在COM机文件夹/home/s/daba_FA/backup中,并被命名为临时文件archive1.dat和archive2.dat。临时文件 archive1.dat和archive2.dat的内容包含了当天行车运行的所有信息,该信息以文字形式进行存储,可通过运图编辑器还原成图形化运图文件。
经过研究我们发现,手动归档的过程是在双COM机重启之前,通过调用脚本SaveArc,将归档临时文件archive1.dat和archive2.dat保存到临时生成的文件夹中,当COM机重启完成后,通过调用脚本RestoreArc,将临时文件夹中的archive1.dat和archive2.dat文件,还原到/home/s/daba_FA/backup文件夹中,当到2:30,系统开始执行自动归档过程。我们从过程中查找手动归档失败的原因,主要从两个执行脚本SaveArc和RestoreArc着手。因两个执行脚本SaveArc和RestoreArc为加密文件,无法读取具体内容。只能从脚本执行过程中进行判断。经过多次试验,发现,在执行脚本SaveArc的过程中,归档临时文件能成功保存在临时文件夹中,可以判断出SaveArc脚本不是造成手动归档失败的原因,所以可以判断出脚本Restore-Arc在手动归档的过程中出现了问题。至此可以总结出手动归档失败的根本原因为脚本RestoreArc的编写错误。
2.2 COM机掉线原因分析
下面2段报文是我们截取的COM机掉线报文的一段说明原因的报文
Feb 2 05:56:45 co2nj tmt:[ID 272515 user.error]coreE_co2nj_tmt.2280
Feb 2 05:56:46 co2njDUMPCORE:[ID 516730 user.info]co2nj tmt-set project specific parameters
Feb 2 05:56:58 co2nj mcs:[ID 535221 user.alert]missing objecttmt 56:58.00
Feb 2 05:56:58 co2nj mcs:[ID 422886 user.warning]emergency message received:Feb 2 05:56:58 co2nj mcs : [ID 535221 user.alert]missing object tmt 56:58.00 56:58.01
Feb 2 05:56:58 co2nj mcs:[ID 739810 user.notice]defect:emergency message received,restartin 10s 56:58.01
这个报文的字面意思在我们自己分析看来,应该是属于TMT的进程出错,也就是列车追踪和监督功能出现错误,属于导致COM2掉线的原因。
而按照西门子的技术资料看来,COM2出现进程错误导致不具备热备SB功能,应该是可以自行检测并重新恢复热备状态的,而最近几个月的COM2掉线后,并没有成功的自动恢复热备,在报文中我们又找到了如下的报文信息:
Feb 2 05:58:44 co2nj mcs:[ID 637711 user.error]SbSignal(sedi,SoftInit):flag=-9 58:44.00
Feb 2 05:58:44 co2nj mcs:[ID 832503 user.error] SbSignal(sedi,ReleRece):flag=-9 58:44.00
Feb 2 05:58:44 co2nj zwvw:[ID 403579 user.error] 3101 pdpDat-TableLoad:/home/s/daba_FA/btt58.dat-Unable to open the file,Error Number 2
Feb 2 05:58:44 co2nj zwvw:[ID 315195 user.error]3713 In zwvwUpdatePdpBttAreas()::pdpDatTableLoad()Fail,
Feb 2 05:58:44 co2nj zwvw:[ID 848649 user.crit] 4801 In main()::zwvwUpdatePdpBttAreas()Failed,cannot continue'zwvw'
Feb 2 05:58:44 co2nj zwvw:[ID 844366 user.crit] 4703 Regular End of Prog 58:44.02
Feb 2 05:58:47 co2nj trpr:[ID 149008 user.debug] * swPdsSta RTU 14 STW XH BP 16 Alpha BET
Feb 2 05:58:48 co2nj mcs:[ID 213814 user.alert]missing object zwvw 58:48.00
Feb 2 05:58:48 co2nj mcs:[ID 957549 user.warning]emergency message received:Feb 2 05:58:48 co2nj mcs : [ID 213814 user.alert]missing object zwvw 58:48.00 58:48.01
Feb 2 05:58:48 co2nj mcs :[ID 297604 user.notice]restart required because emergency message indicates a defect 58:48.01
Feb 2 05:58:48 co2nj mcs :[ID 637879 user.notice]Spectrum willbe killed now 58:48.01
Feb 2 05:58:48 co2nj mcs :[ID 200928 user.notice]Spectrum willbe changed now:COM Pr 58:48.01
Feb 2 05:58:48 co2nj mcs :[ID 106251 user.notice]terminated.
在COM2出现故障后开始自动热备的过程中,会重新启动Spectrum系统3次,每次在COM2状态成为SB并即将热备COM1时,报文就会报告一个错误信息,也就是红字标注的zwvw的一个进程错误,根据我们自己的分析,此进程应该是COM2在每次启动程序时向COM1同步归档数据的一个进程,而当它出现问题时Specturm系统将无法打开,也就无法热备COM1,从报文中,我们还发现,在COM2出现TMT进程错误导致掉线的时候,并没有进行联锁测试,而联锁测试都是发生在COM2第一次尝试自动恢复热备没有成功后才开始。
于是我们进行了一个试验,试验的结果证明了报文的信息,也就是COM2掉线不会引起联锁测试,而引起联锁测试的原因是,COM2掉线后自动尝试恢复热备状态失败。
根据以上的报文分析,一方面加强我们自己对于设备的认知度,不再一味的受制于供应商的说法。另一方面,更是能给西门子提供出我们的分析结果而帮助他们更快的找到故障点来帮我们解决掉故障,降低了故障处理时间,COM机归档问题就是在这种情况下得到了很快的解决。
3 硬盘的自主备份
2009年2 月份的一次备用COM机硬盘损坏给我们敲响了警钟,我们联系了西门子,他们给我们的答复要么我们提供一块空硬盘给德国方面他们帮我们安装,这样最少的处理时间也是半个月,或者最快的方法他们联系德国西门子技术人员过来,但也要1周时间,如果这个期间主用COM机掉线,对我们运营的影响将是非常大的,最终在这次故障的处理过程中,我们全程跟踪,看到了西门子技术人员对COM机硬盘重新安装的过程,掌握了SOLARIS系统的硬盘备份技术,并对我们所有的OC501和OC101系统的服务器进行了硬盘备份,确保了这种系统故障的影响范围缩小到最低,并在我们二号线的西门子培训中特别加入了这一项硬盘备份技术的培训要求。
4 自主的体现
在故障处理过程中,并没有受到西门子技术保护原因的影响,而是通过自己能够触及到的地方,来尽可能的分析故障原因与解决方法,而不再是单纯的听取西门子给我们的故障原因分析,并提出我们对于故障处理的分析和见解,从而达到更好更快更高效的解决故障,来提高我们运营的效率和服务质量。
这种故障的自主分析处理也提高了员工的信心,并让我们更深刻的了解到掌握先进的技术是完成和保障地铁畅通运营的重要手段,这也正符合了公司提出的自主化维修的精神,从学习,到提升个人技能,从而为自主化维修的进程提供更好的保障。