APP下载

国家级地面气象观测站台站级常见告警信息原因分析及处置方法

2024-02-19李婷婷任浩罗淼陈艳

农业灾害研究 2024年11期

摘 要:结合实际观测业务值班工作经验,介绍了县级观测业务工作中常见的涉及数据传输、数据质量、业务软件、观测业务计算机、观测仪器、供电6个方面的国家级地面气象观测站台站级告警信息种类,详细分析了各类告警信息产生的原因及其表现,总结了具体的应急处理办法及注意事项,供基层台站业务一线人员借鉴,为提高应急处置能力奠定基础。

关键词:国家级地面气象观测站;观测业务;常见告警信息;处置方法

中图分类号:P415.1 文献标志码:B 文章编号:2095–3305(2024)11–00-03

随着地面气象观测自动化改革从全国试运行切换为正式业务运行,我国地面气象观测迈入全面自动化时代。全国国家级地面气象观测站由以往的每天值班、守班改为有观测任务时值班、守班(除长期保留人工观测任务的台站),大大减少了一线业务人员的工作量,县级观测业务重心向观测装备维护维修和现场核查、标校或检测、质量管理等转变[1]。

当前,观测业务要求台站业务人员定期检查业务系统和观测设备,及时响应数据异常或设备故障等告警信息并按规定处置。当业务系统和观测设备出现故障时,应尽早确定故障原因,及时排除故障[2];当省信息中心出现无法判断的疑误信息、数据显性错误、未知原因数据缺测时,应配合做好数据质控处理和反馈工作[3]。因此,台站业务一线人员具备告警信息诊断及高效、准确应急处置的能力,对保障地面观测业务系统稳定运行和气象观测数据达到预期质量要求至关重要。

1 告警信息分类及处置原则

1.1 告警信息分类

地面气象观测是气象观测的重要组成部分,为天气预报、气象信息(数据)建设、气候分析、科学研究和气象服务提供重要依据。在观测过程中,常见的告警信息主要分为数据传输异常告警、数据质量异常告警、观测业务软件运行异常告警、观测业务计算机故障告警、观测仪器故障告警、供电故障告警。

1.2 常见告警信息处理原则

1.2.1 时效原则

由于中国气象局对所有观测数据上传的时间有所要求,因此,当台站出现告警信息时,应在规定时效内进行处置。例如,遇装备故障时,若台站在规定时限内无法排除故障或故障级别超出本级职责时,应及时提请市级或省级技术保障部门进行技术指导或现场维修,并配合市级或省级技术保障部门开展维修活动,直至设备恢复运行。

1.2.2 安全原则

自动气象站的供电单元输入220V交流电,经过电源转换模块转换为适合的电压,再输送至各观测仪器设备,具有一定的危险性。在排查故障时,维修人员应根据各类设备仪器的工作原理和供电类型进行分析,防止带电更换故障部件,防止因接线错误造成设备损坏,保护工作人员的人身安全[4]。

1.2.3 逻辑判断原则

当发生告警时,应根据工作原理和故障的外在表现,逐步追踪查找。一般先从观测业务软件开始排查,若软件无故障,再从硬件进行故障排查。当判断为硬件出现故障时,根据组成结构和工作原理,按照从采集器到传感器的基本思路,综合分析故障原因,并按照先易后难的顺序进行故障处理,从而缩短设备维修时间[5]。

2 常见告警信息原因分析及处置

2.1 数据传输异常告警原因分析及处置

数据传输异常是指网络传输故障或其他软硬件故障导致的数据内部传输故障(观测场到值班室计算机数据传输中断,导致观测软件的数据本地计算机入库异常)和数据外部传输故障(计算机网络故障,导致台站数据上传至省气象数据中心出现异常)。

(1)数据内部传输故障通常是由观测场至测报值班室业务机通信线路断路或观测场综合集成硬件控制器故障所致,表现为通信参数设置正常情况下ISOS软件所有观测数据采集失败。此时,应对综合集成硬件控制器、室内外光电转化模块、光纤依次进行排查:检查综合集成硬件控制器供电是否正常(正常情况下供电指示灯PWR常亮)。若综合集成硬件控制器运行正常,则检查室内外光电转化模块正常供电下TX灯和Rx灯闪烁是否正常;若灯不亮,可使用测光笔检测光纤是否完好,若光纤断路,可启用备份光纤恢复数据传输,及时报告省气象数据中心并补调入库数据。

(2)数据外部传输故障通常是网络故障所致,表现为ISOS软件所有数据采集正常,但向省气象数据中心传输时中断。先启动应急传输手段(外网或无线网卡拨VPN方式),以保证在考核规定时限内完成观测数据传输。再通知网络管理人员进行逐项排查:检查交换机或路由器供电是否正常。若供电正常,查看业务机在交换机或路由器上所对应的端口信号灯是否正常,同时将备用网线接入笔记本电脑测试网络是否正常,若确定为交换机或路由器故障,则更换相应设备。若确定非电脑端、交换机及路由器故障问题引起的网络中断,可电话至各运营商询问是否存在网络故障,若各运营商均网络正常,可利用电脑端cmd命令ping各自对应的网关,若本级网关不通,则逐条排查故障端至运营商路由器间的各条网线;若上级网关不通,则及时向上级反馈问题并协助上级开展故障排查。

2.2 数据质量异常告警原因分析及处置

主要表现为因维护设备、观测仪器故障或性能下降导致现用站的数据缺测、异常偏大或偏小未能通过质量考核。若出现某个观测数据异常且无使用价值时,业务人员应按照“地面气象自动观测规范 第21章 异常记录处理原则与方法”予以处理,当气压、气温、相对湿度、风向、风速、地温、草温记录异常时,正点时次的记录按照正点前10 min内接近正点的正常记录、正点后10 min内接近正点的正常记录、备份站记录、内插记录的优先顺序进行代替(风向、风速异常时,均不能内插;挑选2 min风或10 min风时,应按照技术规定的要求挑取“有效数据”进行替换;瞬时风向、瞬时风速异常时按缺测处理);若正点数据用正点后10 min数据代替且为极值时,需手动修改该正点的极值,并将出现时间修改成该时次00分。若出现某段时间分钟数据异常时,除降水外的其他要素的分钟数据异常均按缺测处理。若全部数据不正常,应及时启用备份站开展应急观测。数据处理完毕后应做好异常数据处理备注,并在规定时间内反馈省气象数据中心无法判断的疑误信息。

2.3 观测业务软件运行异常原因分析及处置

当前业务规定所有国家级地面气象观测站需使用集成版ISOS软件,该软件对计算运行环境的要求如下:主频2.4 GHz及以上,内存8 G及以上,硬盘需160 G

及以上,操作系统需满足Win7专业版或旗舰版以上正版系统。观测软件运行异常通常表现为ISOS软件在运行过程中出现卡顿死机,严重时还会导致ISOS软件运行错误、数据读取或传输异常等情况,原因可能是软件长时间没有重启,导致驻留内存或进程中的程序过多,不能释放相应内存。若出现这种故障,仅需避开整点重启计算机即可。此外,软件运行过程中还可能出现观测成功率不高的情况,即非连续性的分钟数据缺测。遇到这种情况,可通过对采集器进行校时解决。在日常工作中,切忌在业务计算机上安装无用或多余的程序,以防增加业务计算机的负担,且需要定期重启计算机,以保证ISOS软件高效运行。

2.4 观测业务计算机故障告警原因分析及处置

观测业务计算机可能因长期不间断地运行或雷击、电脑病毒等原因造成故障,针对此类情况,可重启计算机,尝试是否恢复正常,并通过BUFR数据补发故障期间未形成、未发送的报文重新生成发送,若期间有数据丢失,可通过ISOS软件“查询与处理”→“数据下载”→重新下载相应缺测时段数据进行补发。若重启计算机未能恢复正常,应立即切换备份机,具体操作流程:确认备份机业务软件参数和主计算机保持一致→清空上传目录文件下的历史数据→接入现用站数据传输网线→启动ISOS、CTS2客户端等相关程序→下载切换期间数据进行补发。若主机经短期修复正常,可切换回主机,若不能修复,则备份机可长期替换为主机使用。

2.5 观测仪器故障告警原因分析及处置

2.5.1 传感器故障告警

通常传感器容易受到外部条件干扰,如虫鼠、恶劣天气等,主要表现为ISOS软件单一的气象要素显示缺测或极端异常。常见的传感器故障主要包括电气故障、传感器损坏、堵塞或污染等。此时,业务人员应按照上述“2.2观测数据质量异常告警原因分析及处置”保证数据的可用性和传输的及时性,同时通知装备保障人员启动维修程序[6]:检查业务软件和采集器的相关参数设置是否正确→线缆连接有无脱落或松动→检查传感器供电或运行状态→检查采集器。

检查传感器状态时需注意:(1)温度类传感器(包括气温、草温、地温)采用四线制,应在断电情况下用万用表测量同端电阻R1(电阻值1~8 Ω)及异端电阻R2(电阻值80~120 Ω),利用公式T=(R2-R1-100)/0.385计算出温度值,并与实际温度进行比较,若相差较大,则判断传感器是否故障。

(2)湿度传感器的输出电压U与湿度RH成线性正比关系(0~1 V对应0~100%),利用公式RH=U×100%算出湿度值,再与实际值进行比较,若相差较大,则判断传感器是否故障。

(3)翻斗雨量传感器需使用万用表的通断档测量传感器红、黑接线柱的输出信号,同时翻转计数翻斗,每翻一次观察是否有短路提示音,没有短路提示音说明干簧管损坏。

(4)光电日照计可利用串口调试助手,向日照传感器发送READDATA命令,查看日照传感器有无返回当前分钟的数据。若返回EXCARD NONE,则说明日照传感器内部存储卡故障;若无响应,则说明日照传感器发生故障[7]。

(5)蒸发传感器的输出电流信号值应为4~20 mA,利用公式EC=100×(I-4)/(20-4)计算得出的水位若与软件显示值不一致,则说明蒸发传感器故障。

(6)气压传感器检查使用串口线直连计算机和气压传感器串口,并给传感器加电,同时利用计算机端的串口调试助手发送测试命令,若返回值异常,则说明气压传感器故障。

(7)风速传感器在供电正常且稳定的情况下以D6~

D0的顺序测量并记录格雷码信号电压值(4.5~5 V的电信号为高电平,0~0.7 V的电信号为低电平),并查询此格雷码所对应的方位,通过与实际方位对比,判断传感器是否故障;风向传感器可使用万用表频率档直接测量风速的输出频率,利用风速与频率线性公式(通常光电式风速传感器V=0.1 F,霍尔效应风速传感器V=0.231 5+0.049 5 F)计算出风速值,判断传感器是否异常。

(8)能见度传感器、称重式降水传感器检查时采用计算机直连接传感器串口,检查每分钟的输出数据内容是否正常且不应该出现乱码,同时其数值应在量程范围内。

2.5.2 采集器故障告警

现行业务风向风速、称重雨量、蒸发、气压、能见度传感器均直接接入主采集器,气温、湿度和地温均经分采集器,通过CAN总线接入主采集器,“三温三雨”分别经多传感器标准控制器通过CAN总线接入主采集器。主采集器一旦出现故障,会导致其与各传感器衔接中断,数据采集失真,表现为正常供电情况下接入主采器所有数据缺测,ISOS软件显示新型自动站采集失败。此时,应立即启动备用站采集并上传数据。同时进行排查维修:检查主采供电是否正常→检查主采集器的运行指示灯是否闪烁正常→主采集器相应的通道是否损坏→更换主采集器。主采集器故障恢复修复后,应立即切换回主站运行,特别注意切换后的首份正点报文小时极值需在切换前备用站分钟数据和切换后现用站分钟数据中挑取,并关注是否影响日极值。

2.5.3 分采集器故障告警

主要表现为正常供电情况下经过分采集器或多传感器标准控制器的某类气象数据缺测。此时,业务人员应按照上述“2.2观测数据质量异常告警原因分析及处置”保证数据的可用性和传输的及时性,随后进入装备保障维修程序:检查分采供电是否正常→检查分采或多传感器标准控制器各指示灯的状态(CANR指示灯绿色常亮,CANE指示灯红色不亮)→检查CAN线是否连接正确(是否出现线路断路或短路)→测量CAN线上匹配的120 Ω电阻是否正常。

2.6 供电故障告警原因分析及处置

2.6.1 局部(设备)供电故障告警

主要表现为某些设备出现供电异常,影响业务工作。可使用万用表先进行故障初排,排除跳闸原因造成的局部供电故障。尤其要注意UPS故障导致供电中断的情况,此时应第一时间跳过UPS采用市电直接供电方式,保证自动站正常运行,随后开展UPS维修。若无法修复,应及时寻求相关仪器设备厂家的技术支持。

2.6.2 市电供电故障告警

因自然灾害或供电线路维修等原因导致市电供电故障时,业务人员应第一时间确保UPS正常运行并联系供电公司询问停电大致时间。若时间停电时间较长,则启动发电机进行应急供电,此时,应优先保证业务计算机、观测设备和网络设备等地面观测业务的稳定运行,其余负载暂时处于关闭状态,并定时检查各项发电参数,直至恢复市电供电。

3 结束语

为有效预防日常业务工作中可能发生的各种突发情况、提高业务人员的应急处置能力、保证业务工作正常开展,应结合实际制定观测系统应急预案,定期模拟数据传输异常、人工应急观测、供电系统故障等场景开展应急演练。每次修复故障后,需观察设备运行状况,若设备运行未出现异常,则此次维修完成,由装备维修人员如实在值班记录簿填写维修情况,并在规定时限内在天元系统关闭维修单。维修过程中若更换了备件,在完成维修后应及时将故障件送修。

参考文献

[1] 聂云,周继先,秦畅畅,等.地面观测业务调整给气象观测工作带来的变化[J].贵州气象,2016,40(1):72-75.

[2] 李青建,罗红,闵怡.新型自动气象站异常数据快速诊断及处理方法[J].气象水文海洋仪器,2016,33(2):117-120.

[3] 麦柳霞,郭亮.MDOS系统台站疑误数据处理技术[J].气象研究与应用,2016,37(S1):116-117.

[4] 闫平,高超越,赵建凯.浅析DZZ4型自动气象站电源系统常见故障处理[J].内蒙古气象,2015(1):47-48.

[5] 唐燕,潘来,陈蕴,等.DZZ4型自动气象站观测中常见故障诊断方法[J].贵州气象,2015,39(6):83-87.

[6] 周继先,聂云,袁庆,等.新型自动气象站故障判断及处理办法[J].中低纬山地气象,2021,45(3):117-121.

[7] 朱一正,杨严意,董猛.DFC3光电式数字日照计故障排查与维护[J].农业与技术,2019,39(7):53-54.