APP下载

一次自动气象站串口服务器故障处理过程的探讨

2019-10-08白韧

农业与技术 2019年16期
关键词:故障排查

白韧

摘 要:以一次自动气象站串口服务器故障处理过程为例,探讨优化自动站故障排查方法及日常应急方法。

关键词:新型自动站;串口服务器;故障排查

中图分类号:S163+.7       文献标识码:A

DOI:10.19754/j.nyyjs.20190830065

自动气象站是我国基层气象台站广泛使用的气象仪器,能够实现地面气象要素数据的自动化采集与上传。其主要工作原理就是将各类需要采集的气象要素数据,通过各种类型的传感器转化为电信号传输至主采集器,然后再使用电子计算机与采集器进行通讯,获取数据后存放在本地电子计算机硬盘之中,再通过网络的方式将数据传输至上级气象部门。

电子计算机与主采集器之间的通讯主要使用串口通信的方式来实现,该类方式在各种型号的自动气象站中应用比较广泛,而串口通信方式存在传输速率小、传输距离近、以及非多点传输的缺点。如果在观测场中的主采集器和业务用计算机之间的距离过长的话,在传输的过程中会出现传输速度慢、信号衰减等诸多问题。而以太网通讯方式则具有传输速度快,距离远等优点,可以有效地解决传输问题。

因此,目前出产的新型自动气象站将传统的RS-232 通讯方式转变为TCP/IP 通讯方式,局域网中的计算机只要安装虚拟串口软件,就可以和自动站采集器进行通讯。这一种通讯方式需要在计算机与采集器之间新增加1个串口联网服务器 (简称 “串口服务器”)设备。串口服务器在新型自动气象站的应用,减少了大量工作量(安装、布线等),室内、外均采用光纤传输,有效隔离了室内、外设备的直接电路连接,尤其是在雷雨季节杜绝了雷电的相互感应。

目前,怀柔国家气象观测站使用DZZ5型新型自动站,并且使用串口服务器,台站人员2015年才开始接触串口服务器,对其工作原理以及故障的排除思路还不是很清晰。自动站故障的迅速诊断、排除及故障期间数据的处理是自动站业务的重要组成部分,是每位基层台站业务人员都应掌握的技能。本文通过怀柔国家气象观测站一次自动站串口服务器故障的诊断、排除及处理过程的介绍,给出了此类故障排查的思路及建议,供业务人员在实践中参考。

1 故障现象

2016年8月18日10:13,怀柔站工作人员发现软件无法正常采集数据,显示采集失败。同时软件报警,无法形成z文件。工作人员考虑有可能是采集次数过多,占用计算机内存太多,因此对地面综合观测业务软件进行重启,后问题没有得到解决,随后又对计算机进行重启,后发现软件仍然无法正常采集数据,显示采集失败。

2 故障的诊断以及处理

此时工作人员考虑到是否为硬件问题,本着排除硬件故障的思路,进行了如下处理过程。

2.1 排查主采集器硬件故障

因为故障现象为全部要素数据无法采集,而不是单个要素或者地温等分采集器系统负责的某一类要素缺测,第一时间考虑为主采集器出现故障。根据过往经验,以前也出现过采集器死机的现象,因此工作人员首先到观测场打开主采集器机箱查看采集器状态,发现“RUN” 灯正常闪烁,“CF”灯常亮,使用万用表测量采集器供电电压为13.6V。到这里的检查能够判断出当前采集器的供电状态是正常的,而且从信号灯情况来看,采集器也没有死机,存贮卡也在正常工作。故当时的判断是主采集器运行正常,下一步进行其他方面的故障排查。

2.2 通讯系统故障排查

上一步的检查结果表明采集器不存在问题,因此工作人员转而判断是通讯系统出现了故障。随后工作人員从主采集器位置走到串口服务器位置,打开串口服务器机箱,经过查看发现各个工作指示灯均正常,故判断主采、串口服务器供电均正常。 进行到这一步的检查,当时工作人员判断主采集器运行正常,串口服务器也运行正常,考虑下一步进行通讯线路故障排查。

2.3 通讯线路故障排查

工作人员回到值班室,开始检查串口服务器与计算机之间的通讯线路是否连接正常。首先检查光电转换器状态,发现各个指示灯闪烁正常,因此判断光纤接口、网线接口均连接正常。随后打开虚拟串口驱动软件,点击“search”后,发现窗口能够正常显示出串口服务器的IP地址,故判断计算机与串口服务器之间通讯正常,并且在同一个局域网内。进行到这一步骤,工作人员综合判断通讯线路正常,下一步考虑排查采集器硬件故障,或者采集软件故障。

2.4 计算机与主采集器间的交互排查

工作人员打开业务软件维护终端,键入“DMGD”命令,后发现主采集器能够正常返回分钟数据,这是表明计算机和采集器之间的通讯是正常的。但是观测业务软件主界面仍然显示无数据,并且软件仍然持续报警无法生成z文件。打开历史数据下载,选择下载缺测时段分钟数据时,发现也能够正常下载,但就是实时数据采集无法完成。结合之前的判断,此时采集器、串口服务器均正常工作。当时工作人员考虑是否是本站观测业务软件参数是否出现问题,同时怀疑是计算机操作系统出现了问题,工作人员开始准备启动备份计算机。

2.5 问题发现

在检查了观测业务软件参数设置没有问题后,工作人员一边准备启用备份计算机,一边通过查看计算机同采集器之间的实时通讯状态,仔细查看采集器返回的分钟数据命令,工作人员发现返回的分钟数据时间与计算机的时间相差1min,因此判断是由于采集器时间与计算机时间不一致,造成数据无法正常采集。进行到这里的排查,初步发现了导致软件无法采集数据的问题所在,针对这一发现,开始进行故障排除。

2.6 工作人员进行采集器的时间修改操作

发现无论是在软件主界面点击右键进行将时间下载到采集器的操作,还是在业务观测软件终端维护直接发送修改时间命令,采集器端均返回操作失败。到这一步的排查,当时的工作人员考虑是采集器故障,改为修改计算机时间,将计算机时间修改至与采集器时间一致后,发现软件就能够正常采集数据了。此时能够判断出故障原因就是计算机时间与采集器时间不一致。但目前采用被动修改计算机系统时间的方式保持与集器时间一致,可以临时解决数据采集,但计算机无法主动同步采集器时间,导致采集器时间与市局授时服务器并不一致,也不符合业务规定。此时工作人员只能与市局取得联系,将情况进行上报。

猜你喜欢

故障排查
北京市海淀区新型自动气象站故障排查分析
电力通讯线路设备检测方法及故障排查
长汀国家基本站对一次雷击事件的应急处理
浅议电子线路故障排查基本“三法”
沙溪口水电厂直流系统接地故障排查
区管FA16日常维护与典型案例分析
SDH告警产生原理分析与故障排查
电力类高职电气二次回路技术课程常用故障排查方法的探讨
电容器跳闸故障原因排查及防范
酒精喷灯常见故障的排查与维修