民航气象数据库系统故障分析及处理
2016-10-18张国晶
张国晶
【摘要】 民航气象数据库系统是依托民航 ATM 网络建设的以华北空管局气象中心为主节点数据库,华东、中南、西南、西北、东北、新疆地区气象中心为分节点数据库的星形民航气象情报广域网数据库系统,该数据库系统是民航气象业务的核心系统,承担着全系统的资料收集、情报交换、预报平台、服务支持等重要任务。本文从日常工作中几个故障入手,给出故障的分析过程以及处理过程,以方便维护人员在遇到类似问题时能够及时做出准确的排查。
【关键词】 民航气象数据库系统 通信分系统
一、引言
民航气象数据库是航空气象领域的数据库系统,它是集气象资料处理、通信传输和信息服务为一体的数据库应用系统。它的主要功能是收集全国各地机场的气象情报并进行交换,它的主要功能是对民航各机场的气象情报进行收集和交换,对全球的气象数据进行组织和管理,提供统一的数据接口,开放式的数据访问,对海量的气象数据进行快速检索和有效存储,具有灵活授权、高度共享、分布访问、安全可靠等特点。它把系统所收集的大量气象数据资料按照一定的结构组织起来,并通过给用户提供数据维护、存储、检索等功能, 使气象信息系统可以方便、及时、准确地从数据库中获得所需信息,为民用航空器的飞行提供及时、准确、标准化气象资料,是气象数据库应用服务统一的支撑平台。民航青海空管分局气象数据库系统主要由通信子系统、数据库子系统、预报平台、监控子系统、应用和服务子系统等组成。本文详细分析了几起在民航气象数据库系统运行过程中出现的故障,方便相关数据库维护人员在遇到此类问题时进行参考借鉴。
二、常见故障及排查
2.1数据库监听无法启动
故障现象:2014年11月2日民航气象数据库系统应用服务器出现死机,重新启动系统,启动过程中发现监听listerner无法正常启动,根据系统错误告警提示得知:无法正常打开监听日志文件及打开该文件出错,即listener.log。
故障分析及解决过程:根据以往的处理经验,出现此故障是由以下几种原因引起:1)磁盘空间不足:磁盘空间不足,无法提供存储空间以及程序运行空间,易出现上述情况。istener.log该日志文件的目录为/u0/oracle/product/10.2.0/ db/network/log;通过使用df –v命令查看磁盘使用率,发现u0 所在磁盘的使用率为54%,且每周周维护时定期清除过期的历史资料,故排除此种情况。2)日志过大而无法打开:通过命令查看,该日志文件的大小为4GB,同时查看1号数据库及其他分局数据库系统该日志文件的大小,发现均为4GB,且备份该日志后,用1号数据库系统的日志文件进行替换,系统任然无法启动,故排除此种情况。3)配置文件出现错误:根据以往数据库监听无法启动的案列,此种情况可能是由于配置文件出现错误引起的,查看并与1号数据库对比,发现配置文件未丢失且内容无异常,故配置文件是正确的。4)经向厂家负责气象数据库系统的软件工程师请教并进行远程检查后发现,该日志文件的权限出现了问题,当时的权限为root:system,而该文件的权限应为 oracle:dba,故此故障是由该日志文件的权限发生改变引起的,使用root账户进行登录,对文件的权限进行修改,之后再次启动系统,监听恢复正常,数据库可以正常启动。
2.2 数据库磁盘空间使用率高
故障现象:近期民航气象数据库系统频发出现登录慢或死机现象,经检查发现home文件系统增长迅速,且气象数据库磁盘空间利用率高,而通过归档文件迁出不能有效的释放磁盘空间。
故障分析及解决过程:气象数据库机的磁盘空间超过70%时,通过归档文件的迁出,来释放磁盘空间,但有时经过文件归档迁出后,磁盘空间利用率仅仅降了几个百分点,短时间之内又会超过70%,通过归档文件的迁出,很难有效的释放磁盘空间,尤其到了雨季后,磁盘空间的利用率涨幅更是比平常要快,鉴于以上原因,机务员经过检查发现,home文件系统硬盘资源只有50G,而监控显示文件系统的利用率达90%,通过命令查找大文件,显示没有,逐级查找大文件,发现/home/mhdbs/trash/rad/p2imag 文件夹异常大可达25G,即home文件系统的50%,进入文件夹查看发现每天全国下发的雷达图可达3G左右,保存7天可达21G左右,正是由于雨季来临后,雷达图的数量增多,导致磁盘空间利用率涨幅很快,因此机务员将早期的雷达资料删除,保留最近三天的资料,磁盘利用率可降到41%左右,系统运行畅通。
2.3 修改控制文件,本地数据库无法收到气象情报
故障现象:2015年6月24日收到民航空管局关于宁蒗泸沽湖机场飞行气象情报参加国内交换的批复,12:40(UTC)机务员对通信机控制数据进行修改,将宁蒗泸沽湖机场的SACI76,SPCI76,FCCI76,FTCI76,WSCI76公报加入控制数据。在13:00(UTC)时次发现本地数据库中没有最新时次的气象情报。
故障分析与处理过程:在发现本地数据库中缺少最新时次的气象情报后,机务员首先检查通过ping西安交换服务器检查网络的连通性,网络连接正常;检查通信系统运行状态,各进程运行正常,且MQ通道运行正常,队列无积压,检查通信系统/home/comm/history/的留底文件,发现没有最新时次报文收发记录;故初步判断是由于先前修改控制数据导致本地数据库无法收到气象情报。首先,通过预报编发报主机发送请求报,请求全国各地机场的气象情报,2分钟之后可以看到AFTN线路上有收报记录,通过预报综合信息服务平台进行查看,发现数据库报文资料恢复正常。机务员进入目录20150624bak(提取和制作BSB的目录)进行检查,发现当前目录下生成一个core文件,进入$HOME/msdat目录,使用ls –l命令查看,通过文件最新修改时间发现MSS01. dat文件并不是最新作的控制数据,MSS04.dat是最新控制数据。判断是在mv MSS*.dat $HOME/msdat过程中程序发生崩溃,导致mv命令执行失败,只将MSS04.dat文件移动过去,MSS01.dat文件移动失败。在$HOME/msdat目录中,MSS01. dat和MSS04.dat两个文件并不是由同一个bsb.txt文件生成的,所以当通信机收到气象情报后,把它当成错报丢弃。使用备份的bsb.txt文件重新制作BSB文件,并且确定$HOME/ msdat目录下MSS01.dat和MSS04.dat是当前最新制作的BSB文件,执行冷启动。持续监控下一时次,发现报文入库正常。
三、小结
作为一名气象数据库维护人员,必须要掌握民航气象数据库系统的整体网络架构拓扑,了解气象资料的传输走向以及处理流程,通过不断的业务学习,来提升自身的业务能力和素质,在系统出现故障之后,一定要保持沉着冷静、有条不紊,不盲目的进行故障判断,从关键点入手,逐步深入,检查系统的各项运行状态,找出异常,快速定位故障并进行故障排除。每一次故障的排除过程对我们来说是一个很好的学习机会,事后要善于对故障进行记录、总结,组织科室全体人员进行学习讨论,以便日后遇到类似情况时,能够快速的定位解决设备故障,提高设备的运行率,保证各项业务的不间断运行。
参 考 文 献
[1] 太极计算机股份有限公司,民航气象卫星传真广播系统用户手册,1-60.
[2] 朱盛文 民航气象数据库系统故障案例分析[期刊论文]-中国新通信 2015(23).
[3] 陈齐亚 民航气象数据库通信系统[M].西安,2011.
[4] 俞霄靓.陈齐亚.梁欣.兀鹏越 民航气象数据库系统一起典型资料传输故障的分析及处理[期刊论文]-计算机时代 2014(12).
[5] 李占睿 民航气象二期数据库系统管理、维护和二次开发[期刊论文]-气象水文海洋仪器 2011(1).