APP下载

一次ISOS集成版故障排除方法及思考

2020-12-22田光文

陕西气象 2020年5期
关键词:业务人员网卡局域网

田光文,马 艳

(1.南郑区气象局,陕西汉中 723100;2.宁强县气象局,陕西宁强 724499)

随着地面自动化进程逐步推进,设备自动化程度也逐渐提高,以OSSMO(operational software for surface meteorological observation,地面气象测报业务软件)为基础的软件对多种设备的接入和管理存在缺陷,导致需要多套软件共存才能按照要求完成地面观测工作,因此增加了业务人员的工作负担。根据中国气象局自动化观测系统发展需求,立足于自动化观测和自动化业务流程,需要能对多种地面观测设备进行统一管理且灵活配置的综合集成业务系统,新型站的建设及其配套的软件在这样一个背景下应运而生。

目前陕西省的新型站(包括华云DZZ5和无锡DZZ4)已经运行超过2 a以上,其硬件和软件都经过数次升级更新;硬件结构采用了控制器局域网总线技术,并通过架设串口服务器实现了多个采集系统共存、相互独立但又属于一个整体的“积木式”结构。目前为了参与国际标准化数据的交流,与新型站配套的ISOS (台站地面气象综合观测业务软件)软件也已更新为集成版。

虽然ISOS集成版正式运行时间不长,但基于ISOS集成版的应用研究国内已有很多。张志龙[1]对ISOS集成版软件的使用技巧和方法进行了探讨;吴自越等[2]提出合理设置软件中的报警功能提高预报业务质量;刘德强[3]和李宝林[4]对ISOS集成版上线后遇到的软件操作类问题和解决办法进行了汇总;陈洋麟等[5]对ISOS集成版在使用过程中的故障进行了分析,并提出了相应的解决办法。

南郑布设的国家一般站新型自动站型号为DZZ5,目前运行的ISOS版本号为2.0.2.0集成版。由于升级时间较短,并没有在实际工作中遇到过集成版ISOS软件需要启用备份传输的情况,本文对这种情况进行讨论,旨在提升ISOS软件实际应用水平,降低自动站运行的故障风险。

1 故障现象描述及处理方法

1.1 现象描述

2019年1月21日16时40分,南郑国家一般站新型自动站业务机上ISOS软件的“测报通讯监控”模块中,“通信状态”区域显示为“连接失败”,且无法正常传输数据。

1.2 故障处理

1.2.1 故障判断 为了方便描述,首先引入简易的新型自动站网络拓扑图(图1),网络分为4个部分。数据传输过程为:新型站业务机通过交换机将观测数据传至路由器,再通过光猫传输至电信与移动专线(互相备份),最终传至陕西省气象局信息中心。

业务人员通过以下过程确认故障,最终判断为第1部分故障。

(1)使用ping命令测试了新型站业务机与局域网内其他计算机和网关之间的通信均为正常[6],从而确认了第3、第4部分正常。

(2)通过更换备份路由器,测试发现仍然无法正常传输数据,故障现象仍然与前面一致,确认第2部分正常。

图1 自动站简易网络拓扑图

(3)检查本单位局域网内其他计算机,发现无法登陆英特网;通过ping命令测试外网dns地址不通;查看电信与广电双线路的光猫,指示灯闪烁不正常。

1.2.2 故障处理 业务人员迅速与运营商联系,得知两条光纤由于施工同时被破坏。业务人员判断该故障短时间内无法解决,因此决定启用无线传输备份(3G无线网卡)。为了方便描述,再引入观测数据在局域网内的传输图(图2)。数据传输过程为(单网卡业务机结构):观测数据从观测场采集后传输至串口服务器,通过串口服务器将电信号转变为光信号,以光纤的形式传输至值班室的光电转换模块,再通过光电转换模块将光信号转变为电信号,以网线作为媒介传输至局域网。新型站业务机通过ISOS软件从局域网中将数据接收至计算机,最终传至陕西省气局信息中心。

图2 观测数据流程(箭头方向)

业务人员启用无线传输后,由新型站业务机从局域网中提取的数据应直接通过3G无线网卡传输至陕西省气象信息中心。但在此次故障中,业务人员发现“通信状态”部分显示为“连接成功”,通过ping命令测试信息中心收报地址通畅,但新型站业务机无法正常采集数据;不启用无线传输的时候网络断开,又无法正常传输数据。经业务人员多方测试,考虑故障为无线传输使用的3G无线网卡和新型站业务机网卡冲突。

根据故障现象,业务人员将光电转换模块传出数据的网线与新型站业务机器直连,而新型站业务机不再接入局域网。调整网络物理连线后启用无线传输,接收数据与传输数据均正常。

这样的做法考虑一方面让观测数据不进入局域网,由新型站业务机直接由光电转换器接收数据;另一方面新型站业务机的网卡只有接收数据功能,而传输数据功能由3G无线网卡完成(正常连线结构下新型站业务机的网卡有接收数据和传输数据两个功能)。从而避免了新型站业务机和3G无线网卡的冲突。

2 故障原因思考

此次故障的本质原因是光纤故障,但所体现出来的现象是3G无线网卡和本地网卡的冲突。对此台站组织业务人员对其进行了分析,首先在此次故障之前,3G无线网卡和本地网卡没有出现过冲突的情况;其次,隔日经过业务人员再次模拟故障进行测试,3G无线网卡与本地网卡的物理地址并没有冲突。

考虑到2018年12月底因业务需求进行过一次软件升级,而在该时间节点前使用无线传输备份手段没有任何问题,因此目前暂时考虑为ISOS软件版本导致此现象。

3 处理方法思路讨论

设备的维修工作就是发现问题、解决问题的过程。重点在于如何发现问题,在了解原理的基础上,根据问题,从简单原因开始测试,直到找到真正故障原因,最终做出合理的维修处理。在维修设备过程中只要遵循这一原则,就能解决大部分故障,因此对于此项工作有以下几点经验和方法。

一要弄懂结构,包括硬件的物理结构、软件的数据存储构架、数据的传输方式和流程等。这一点是所有站点维护维修工作的基础。比如在本文中提到的情况中,在做第一步故障判断时候,要求业务人员对本单位局域网的搭建结构和观测数据的流传输有较深入的了解,才能知道哪些是需要测试的节点。

二要对各类仪器设备的工作原理有较为深入的了解,根据原理逐一排查。此处设备可以是硬件设备,也可以是软件程序。本文例子中,了解网络硬件设备(路由器、交换机、3G无线网卡等)的工作原理是解决这个问题的关键所在。把握住原理,通过各类仪器仪表、测试命令和现象观察来判断设备好坏。

三要多注意总结,多设想各类情况的表现和解决办法。在台站设备正常运行过程中,出现故障总是少数,如何在出现故障的时候熟练处理:首先要在过去的故障中多总结,形成经验性的做法,提高故障再次出现时的处理效率;其次要多在设备正常的时候设想各类可能出现的故障,预设可能出现的故障现象,便于在实际工作中快速判断故障部位。

值得注意的是,引起同一个故障的影响因素很多,而在高集约化状态且软、硬件的更新速度都很快的情况下,对设备故障的判断也要根据具体情况考虑,维修的经验方法应该在参考借鉴的基础上考虑本台站的独特性来进行。比如在本文的例子中,应了解到南郑国家一般站使用的是集成版ISOS,版本号2.0.2.0,且新型站业务机为单网卡配置。

4 结语

无线传输是台站地面文件传输中的一种重要手段,主要应对的就是有线网络无法使用的极端情况,此次出现的光纤被破坏就是这种情况,但由于ISOS软件的版本问题,常规的无线传输方式与现行的地面数据采集和传输方式不匹配,使用无线传输手段时需要改变网络物理接线方式才能实现正常传输。同时,从此次故障的原因上看,如果新型站业务机为双网卡,或ISOS版本及时进行更新,理论上不会出现本文中的故障。

此外,业务人员在工作中一定要胆大心细,勇于尝试,克服“不敢碰”业务机的思想。遇到问题时自己多思考、多动手,是提升自身综合观测业务能力的必要手段。

猜你喜欢

业务人员网卡局域网
轨道交通车-地通信无线局域网技术应用
部署Linux虚拟机出现的网络故障
基于VPN的机房局域网远程控制系统
Server 2016网卡组合模式
浅谈提高业务人员素质的主要途径
基于802.1Q协议的虚拟局域网技术研究与实现
90%的奶粉企业要瘦身,谁会被裁掉?
快消品行业业务人员流失的原因与影响浅析
局域网性能的优化
挑战Killer网卡Realtek网游专用Dragon网卡