一起民航气象数据库系统进程频繁宕机故障分析及处理方法
2017-04-18王园园
王园园
【摘 要】航空气象情报及气象资料的及时、准确、标准化获取是保障民航安全运行的重要基础。本文介绍了一起民航气象数据库常见故障,即达到进程最大连接数后导致相关用户进程频繁宕机问题,造成用户无法获取最新报文和自观数据。本文利用Oracle数据库中用户端远程连接进程的共同关键字“LOCAL=NO”筛选出inactive进程使用“kill -9”强行杀掉,实现在不重启数据库情况下解决ORA-0020问题。
【关键词】民航气象数据库系统;Oracle;宕机;inactive;LOCAL=NO
【Abstract】Timely, accurate, standardized acquire meteorological data information of aviation is running an important basis to protect the safety of civil aviation. In this paper, we introduce a normal fault of civil aviation meteorological database system, process reach to maxProcessors led to process frequently down, so users cannot receive new message and data. We use “kill -9” command killed inactive process which have same keyword “LOCAL=NO” in Oracle database system, so we solved the error code ORA-0020 in no restart.
【Key words】Civil aviation meteorological database system; Oracle; Down; inactive; LOCAL=NO
0 引言
民航气象数据库系统利用数据库技术和商用数据库管理系统,对各类气象资料进行有效的组织与管理,采用统一的数据模型和用户界面,从而实现对气象资料的有效存储和快速检索,并具有分布调用、高度共享和安全可靠等性能,为航空气象服务、气象业务与科研培训提供有力的支持。航空气象情报及气象资料的及时、准确、标准化获取是保障民航安全运行的重要基础。本文介紹了一起由数据库进程数达到最大导致民航气象数据库进程频繁宕机故障,并给出了故障问题处理方法。
1 民航数据库系统结构简介
民航气象数据库系统是具有飞行气象情报及气象资料的制作、交换、备供、存储等功能的信息系统,包括通信分系统、数据库分系统、预报平台及服务平台四部分[1],如图1所示。
1.1 通信分系统
通信分系统是民航气象数据库系统的基础系统,它主要实现各类气象资料的接收、检查、处理,并根据一定的规则向其它系统及地区中心进行资料分发,同时实现气象中心、地区中心与航站之间的数据交换。通信分系统将获取的各种气象数据发送给数据库分系统,数据库分系统将这些数据进行分类、解析和处理后存储在数据库中。
1.2 数据库分系统
数据库分系统采根据存储数据的用途及时间划分为实时库、历史库及临时库,分别满足不同的业务与服务的要求。数据库分系统又分为资料处理子系统和数据库管理子系统。
(1)资料处理子系统对服务器data目录下接收到的气象信息进行分析分解,质量控制后入库;
(2)数据库管理子系统采用C/S模式,对资料处理、数据库等进行实时监控与管理,预报平台与服务平台则通过获取Oracle数据库中的气象资料,以不同的形式展现给用户。数据库管理子系统主要侧重于对数据库中气象资料的管理。提供的主要功能有:系统登录、资料处理、数据库管理、数据库恢复、日志和统计、告警、用户管理、进程管理、系统配置、窗口、帮助等。
1.3 预报平台
预报平台(民航气象信息综合处理系统)利用气象实时数据库资料,通过对数据库中的气象资料进行检索、分析、处理,制作成文本、图形等形式的气象产品,为航空气象预报人员提供服务。
1.4 服务平台
气象信息服务平台从数据库中提取相关产品,以WEB形式展示向航空气象用户提供航空气象产品及服务。
2 故障现象
民航气象数据库系统数据库子系统运行环境:硬件环境为IBM服务器;操作系统为AIX5.2;数据库系统为oracle 10g。
数据库运行一段时间后,资料处理子系统相关进程自动停止运行,导致621客户端及相关协议单位无法检索到最新资料,且重新启动后再次停止运行或直接无法重新启动。
3 故障分析
通过查看数据库相应进程诊断文件方法检查故障原因,数据库诊断文件是获取有关数据库活动信息的一种方法,用于解决数据库出现的一些问题,主要包含有关数据库中出现的重要事件的一些信息,这些文件能更好的对数据库进行日常的管理。
5 结束语
本文介绍了一起民航气象数据库常见故障,即达到进程最大连接数后导致相关用户进程频繁down机问题,造成用户无法获取最新报文和自观数据,一般较为普遍的处理方法为采用修改系统最大进程连接数后重新启动数据库,但是民航气象数据库对系统停机重启要求较高,重启数据库将导致用户无法及时获取数据,具有一定的安全风险。本文主要利用Oracle数据库中远程连接进程的共同特点,都含有关键字“LOCAL=NO”,然后经根据关键字“LOCAL=NO”筛选出inactive进程使用“kill -9”强行杀掉[4],此方法可以实现在不重启数据库情况下解决ORA-0020问题。
【参考文献】
[1]太极计算机股份有限公司,民航气象卫星传真广播系统用户手册[M].1-60.
[2]李月军.数据库原理与设计(Oracle版)[M].北京:清华大学出版社,2012.
[3]AP-117-TM-03R1,民用航气象数据库系统业务运行管理规定[S].民航局空管办,民航局空管局,2009.
[4]李爱武.基于Linux的Oracle数据库管理[M].北京:北京邮电大学出版社,2008.
[责任编辑:朱丽娜]