APP下载

长春龙嘉机场气象信息网系统故障分析

2021-04-06杨诗缘

气象水文海洋仪器 2021年1期
关键词:信息网日志气象

杨诗缘,张 伟

(中国民用航空东北地区空中交通管理局吉林分局,长春 130022)

0 引言

随着中国民航运输业快速稳定发展,航班飞行量与日俱增,航班压力与航班飞行的安全性和高效性之间的冲突日益提升。天气对飞行安全有着十分重要的影响,民航史上70%的航班事故都是天气原因造成的。为了提升预报员和观测员的业务水平,民航局空管局引进了民航气象信息网系统,将其作为提供气象信息服务的重要软件。气象信息网系统可以为用户提供丰富的气象信息,其使用成熟的虚拟化软件和云系统软件搭建云平台,并在云平台上部署业务[1]。该系统采用云计算平台作为气象信息服务系统的基础支撑平台,可实现自动观测系统、雷达系统、卫星云图系统的信息共享与交换、流程整合与协作、资源管理与配置[2,3]。气象信息网系统可以综合、直观、及时地获取气象数据,从而提高气象信息服务水平。

1 理论支持

1.1 数据库

数据库是按照数据结构组织,存储和管理存入数据的一个“巨大的仓库”。在其空间内,可以放置成千上万,甚至以亿为单位计算的数据内容。但是在数据库中数据并不是自由地、随便地存放,而是按照一定规则,否则会为查询带来很多不便。数据库可以与多个用户共享数据,并通过一定方式储存在计算机中,用户可以对存储的数据进行添加、检索、更新和删除等操作。数据库管理系统是数据库系统的重要组成部分,负责管理数据库,包括对数据库进行创建、检索、新增、修改和删除等操作,还可以对数据库进行用户管理、权限管理等。

1.2 表空间

表空间是组成数据库的最小单位,包含许多数据库实体,如表、索引、视图、回退段、聚簇和临时段等。一个数据库可以拥有1个或几个表空间,1个表空间映射着1个或几个数据库文件。永久表空间:存储数据库中需要永久化存储的对象,如二维表、视图、存储过程和索引。临时表空间:存储数据库的中间执行过程,如保存order by数据库排序、分组时产生的临时数据。操作完成后存储的内容会被自动释放。临时表空间是通用的,所有用户均使用TEMP作为临时表空间。UNDO表空间:保存数据修改前的副本,存储事务所修改的旧址,即被修改之前的数据。对数据进行修改的同时会对修改之前的信息进行保存,便于对数据执行回滚、恢复和撤销等操作。

2 故障排查过程及解决方案

长春龙嘉机场气象信息网系统共有6台服务器,分别为:情报网通信机、情报网服务器(主)、情报网服务器(备)、内网通信机、外网通信机和外网服务器。还有5台显示器,分别为:预报终端、观测终端、进近终端、塔台终端和飞服终端。气象信息网从数据库中提取自观数据、报文数据,从雷达服务器中提取雷达数据,从卫星服务器中提取卫星云图(图1)。

图1 气象信息网拓扑图

2.1 气象信息网网站无法访问

气象设备机务员在巡检设备时,发现气象信息网数据无更新,刷新后发现无法登录网站。在网站发生故障的第一时间,值班机务员首先在预报终端输入命令行:ping192.6.202.104,查看能否连接服务器,结果发现无法连接104服务器。以同样的方式连接其他服务器,发现能ping通101、102和103服务器。于是初步判断是104服务器存在故障,随后查看104服务器,服务器显示处于运行状态,重新插拔网口后,发现依然无法ping通104服务器,KVM机的分屏上也找不到104服务器。最终强制重启104服务器后,104服务器ping通,判断故障原因应该是104服务器宕机。然后在厂家的远程指导下用xshell软件连接104服务器,输入 命令行:df-h,发现磁盘空间剩余不足,进入/data/his/目录删除历史留底数据,系统恢复正常运行。

2.2 气象信息网无最新数据

当日值班机务员接到进近管制室打来的电话,反映气象信息网无最新数据。得知该情况后,机务员立刻检查设备,在信息网终端电脑上访问192.6.202.104:8080/amss/信息服务网站,在自动观测模块下查询本场ZYCC的数据,结果发现查询要耗时几十秒甚至几分钟。机务员推测可能是oracle数据太多所导致,于是通过sqldeveloper连接106服务器数据库,手动删除awos_rpt和awos_ele的大部分数据,结果发现问题仍然存在。接着,机务员判断可能是CPU占用过多导致,于是输入Top命令查看内存和CPU信息,发现CPU占用并不多,而且内存使用也正常。随后,将104服务器切换到grid用户,使用命令:crsctl stop/start cluster-all重启数据库,然后重启tomcat,问题依然没有得到解决。最后机务员向厂家工程师说明情况,工程师建议查看oracle日志,结果发现日志文件切换频繁,判断可能是日志文件过小导致,于是修改日志文件大小为1024 M,部分命令如下:

//查看日志文件大小及状态

select group#,thread#,status,bytes/1024/1024MBtyes from v$log;

//新增日志文件,大小为1024 M

ALTER DARABASE ADD LOGFILE THREAD 1 GROUP 5(‘+DATADG’,‘+DATADG’)SIZE 1024M;

//手动切换日志文件

Alter system switch logfile;

//删除status为inactive的日志文件

ALTER DATABASE DROP LOGFILE GROUP 1;

将原有的4份50 M的日志文件全部删除,并新增了4份1024 M的日志文件后,发现问题并没有得到解决;随后在厂家工程师的指导下查看了数据库的表结构,发现没有建立主键和索引,将awos_rpt表建好主键和几个字段的索引后(主要是itime字段建好索引),问题得到解决。长春机场数据库重建后没有将数据库表建立完整,缺少主键和索引,由于awos自动观测数据最多,所以受影响最大;在解决问题的过程中发现awos数据不仅查询缓慢而且数据库中没有最新的awos数据,排查发现入库目录下堆积了许多文件,查看tomcat日志发现mydb的入库进程运行正常,只是入库速度比较慢,判断为awos_rpt表没有建立主键导致入库缓慢,查看tomcat日志有类似“order by itime”的sql语句输出,因此给awos_rpt表建立itime字段的索引,经验证查询速度得到极大提升。

2.3 http://192.6.202.104:8080/amss没有数据

设备机务员接到观测员反映,气象信息网雷达图没有上传,于是机务员首先用笔记本连接服务器,查看入库目录和留底目录,发现留底目录数据正常,但是网页没有显示图片,连上SQL developer查看果然没有最新数据,初步判断是入库错误,查看日志,提示ORA-01691错误,说明表空间被占满(图2)。

图2 错误代码为ORA-01691

于是使用以下语句:

SELECT Total.name "Tablespace Name",filepath,

Free_space,(total_space-Free_space)Used_space,total_space

FROM

(selecttablespace_name,sum(bytes/1024/1024)Free_Space

fromsys.dba_free_space

group bytablespace_name

)Free,

(select b.name,sum(bytes/1024/1024)TOTAL_SPACE,a.NAME as filepath

fromsys.v_$datafile a,sys.v_$tablespace B

wherea.ts# = b.ts#

group byb.name,a.NAME

)Total

WHERE Free.Tablespace_name = Total.name;

因为数据库的asm管理方式和普通数据库不同,无法找到表文件的路径所以清理表空间的步骤可能不相同,需要暂时先增加1个表文件,执行语句如下:

Alter tablespace USERS add datafile ′+DATADG/zyccdb/datafile/users_add4′ size 1024M autoextend on next 128M;

最后问题得到解决,雷达图上传恢复正常。

3 结束语

通过文章所述案例可以看出,气象信息网系统故障原因一般有4个方面:一是104服务器宕机,造成网络无法连接;二是由于磁盘空间不足导致数据无法更新;三是数据库表建立不完整,缺少主键和索引,导致数据查询缓慢;四是由于退出网页方式错误,导致表空间溢满,使数据无法更新。由此可见,在日常设备维护维修工作中,机务员不仅要学会如何处理故障问题,还要教会用户如何正确使用设备软件,避免因人为误操作而导致设备出现故障的情况发生。

猜你喜欢

信息网日志气象
气象树
2022年中国种猪信息网全年计划
一名老党员的工作日志
《内蒙古气象》征稿简则
扶贫日志
雅皮的心情日志
雅皮的心情日志
大国气象
美丽的气象奇观