APP下载

自观联网系统故障案例分析

2021-07-16欧阳雪梅

科学技术创新 2021年19期
关键词:端口防火墙进程

欧阳雪梅

(民航华东空管局气象中心,上海 200335)

华东地区自动气象观测系统联网系统,是将华东空管分局站和华东属地化机场的自动观测系统的实时数据进行收集,并将收集来的自动观测数据及其他图形产品等气象数据在服务网站上展示出来,供气象用户使用。如果不能及时收到各地的自动观测数据,网站上就缺少各地的数据资料,会对气象用户的数据使用带来不便,对气象服务造成一定的影响。所以有效的故障处理方法,可以缩短排除故障的时间,提高排除故障的效率使系统尽快恢复正常,从而减少对用户的影响。

1 华东地区自动气象观测系统联网简介

华东地区自动气象观测系统联网系统,由自动气象观测数据收集、数据处理和气象综合服务网站几个部分组成。其中自动气象观测数据收集、处理分系统是通过各节点的串口,定时收集自动气象观测数据,在互联网上通过虚拟专用网(VPN)的数据通信方式,将采集来的气象数据传输至华东空管局气象中心。这些数据经过网御防火墙,到达数据接收处理服务器。数据接收服务器接收各个节点采集的自动观测系统的数据,进行预处理,然后分解并存入数据库。气象综合服务网站子系统用来展示这些数据。同时,气象用户可以使用VPN 数据链路经互联网连接到气象中心,通过访问气象综合服务网站的方式,获取华东地区自动气象观测系统实时资料以及气象综合服务网站提供的其他飞行预告图等气象资料。网络结构如图1。从以上网络结构,可以看出:气象中心的网页服务器展示的数据包括自动观测数据和天气警报、报文资料、图形产品等。这些资料分别来自于属地化机场和气象中心的民航气象数据库系统。其中属地化机场的自动观测数据来自于各机场的自动观测系统。它的流程是这样的:自动观测系统输出的数据经过串口设备以及交换机、路由器,通过网络到达气象中心的路由器、防火墙、交换机,然后到达数据处理服务器。最后将数据发送到本系统的数据库服务器。自观数据从自观系统发出,到达数据处理服务器的数据通信是通过虚拟专用网络(VPN)实现的。虚拟专用网络VPN 就是利用公用网络(Internet)的资源,建立一个私有的点对点的连接,利用加密技术对经过此连接的数据进行加密,保证这些数据仅被指定的发送者和接收者使用,保证了数据的私有性和安全性,并且可以灵活增加新的节点。自观联网系统的防火墙,使用的是网御防火墙。网御防火墙集成了防火墙、VPN、入侵检测与防御、防暴力破解、敏感信息防泄漏、高流量清洗、舆情监控、防注入攻击等功能。具有网络适应性、HA 功能、访问控制功能等核心功能。采用创新的VSP 通用安全平台,具有高效的USE 统一安全引擎,防火墙虚拟化等功能。天气警报、报文、图像产品以及空管分局站的自观数据等资料是由民航气象数据库系统,经过内网防火墙发送到本系统的数据库服务器入库。

对于该系统可能的故障点粗略统计如下:

1.1 属地化机场的自观数据到达数据库时可能的故障点。1.1.1 自动观测系统没有数据输出;1.1.2 串口设备故障;1.1.3传输前的网络设备故障;1.1.4 传输链路故障;1.1.5 网御防火墙、交换机故障;1.1.6 数据处理服务器的故障;1.1.7 数据库入库故障。

1.2 空管分局站自观数据以及天气警报、报文、图像产品等资料到达数据库,可能的故障点。1.2.1 内网链路故障;1.2.2 内网网络设备故障。

1.3 网站服务器故障。1.3.1 网页打不开;1.3.2 网页无资料(该现象与前两条故障点有关)。

2 故障现象

接到某机场报修电话,称华东地区自动气象观测联网系统不能上传AWOS 数据,同时也看不到其他机场最新AWOS 数据。

3 故障排查处理

根据故障现象可以分成两方面考虑:第一是AWOS 数据不能上传到气象中心。第二是网页上看不到其他机场的最新数据。根据上文对故障点的粗略分析,可以看到,上传不了AWOS数据(自观数据),有7 种可能,前3 种发生在某机场自身,他们可能在报修前已检查过自身问题,第4 种情况为网络问题,对方能访问气息中心的网页,说明传输链路应该正常,所以着重考虑后面几条。

3.1 通过网御防火墙的用户信息,查询用户在线状态。因是某一机场报修,首先考虑检查该节点的链路连接是否正常,因此首先登录网御防火墙,查询用户连接情况。3.1.1 通过管理员用户登录网域防火墙。3.1.2 进入首页后,选择“统一认证”里的“用户信息”,可以通过“登录时间”和“在线时间”判断该节点链路连接正常。见图2。

图2 用户连接情况

3.2 重启网御防火墙。因网御防火墙发生过卡死,因此怀疑用户信息里显示的“登录时间”和“在线时间”等为僵死信息,因此将网御防火墙重启。重启后再次查询,排除链路问题。

3.3 通过登录服务网站网页,查询所有其他属地化机场AWOS 数据是否正常在网页显示。3.3.1 网址为:http://172.160.2.1(administrator/******)。3.3.2 进入首页后,选择“自观数据”下的“自观表格”,发现空管分局站的自观数据是正常的,说明内网链路和内网网络设备均正常。属地化机场的自观数据大部分都是过期数据,资料时间停留在报修时间点之前,只有少数属地化机场数据正常。从网页显示上也能看出该故障点可能发生在网御防火墙、数据处理服务器以及数据库的入库这几个方面。因网御防火墙重启过,着重检查数据接收服务器。

3.4 查看数据接收服务器是否正常。查询AWOS 数据接收目录。登录数据接收服务器,查询AWOS 数据接收目录/data/swap/awos2/20201027,发现只收到少部分机场的AWOS 数据。并且在重启网御防火墙后,仍然不能收到大部分机场的新数据,于是怀疑接收处理进程有问题。由于不知道接收处理进程的名称和位置,便想到过防火墙上端口占用情况,找到对应的进程名称,进而找出处理进程是否正常运行。

3.5 查找处理进程是否正常运行。3.5.1 登录网御防火墙。选择“防火墙”下的策略,看到AWOS 数据上传端口有两个。记下这两个端口号。见图3。3.5.2 登录数据接收服务器,根据端口占用情况,找出对应的进程名称及路径。执行命令Netstat -apn |more 发现只有一个端口被占用,另一个端口没有进程占用。说明另一进程没在运行。见图4。

图3 防火墙端口号查询

图4 进程占用端口情况

3.6 查找处理进程所在路径及名称。由于不知道另一进程的名称,于是通过查找正在运行的进程的位置,去查找另一个进程的路径及名称。3.6.1 查找命令:Find /-name 进程名。通过find 命令,找到正在运行的进程的路径是在/home 目录下,于是在该目录下,找到相应目录下的进程,进程名为airport。见图5。3.6.2 使用命令ps-ef | grep 进程名,发现该进程没有运行。

图5 查找进程路径

3.7 启动处理进程。进入进程所在目录,手动启动该进程:3.7.1 cd /home/airport/。3.7.2 nohup ./airport &。

3.8 查看传输日志。3.8.1 cd /home/airport/logs。3.8.2 tail -f 20201027.log。从输出结果可以看出,已经接收到了所有属地化机场的AWOS 数据。

3.9 再次登录气象综合服务网页,查询到属地化机场AWOS 数据恢复正常。

4 故障原因分析

通过以上步骤对故障的排查,确定了故障点在数据处理服务器。通过防火墙的端口占用情况,找到属地化机场自观数据的接收处理是由以下两个不同的进程,使用不同的端口进行数据传输的。

4.1 Airport 进程。通过A 端口传输三十多个机场的AWOS 数据。进程路径:/home/airport/airport。

4.2 Startserver 进程。通过B 端口传输少部分几个机场的AWOS 数据外,还传输所有雷达资料。进程路径:/home/server/shell/startserver。

由此可以看出,不论是在气象综合服务网页上查询不到AWOS 数据,还是在数据接收服务器上的AWOS 数据接收目录下,查询不到新的AWOS 数据,都是由于传输处理进程(airport 进程)down 导致。所以启动airport 进程后,数据恢复。

结束语

以上故障的处理方法,可以总结如下:首先列出所有可能的故障点,根据系统结构,按照不同数据的来源以及数据缺失情况,先确定大概问题出现在哪里,然后分门别类去查找,找出故障可能出现的阶段,再在该阶段深入查找故障点。本次故障处理的巧妙之处是,在排除了链路故障、防火墙故障后,将故障定位在数据接收处理服务器。虽然知道可能是进程down,但又不知道具体的进程名称,于是通过查找进程占用端口,反向查找进程,并通过已在运行的进程的目录位置,找到没有运行的进程目录,从而找到该进程,并重新启动它。

猜你喜欢

端口防火墙进程
一种有源二端口网络参数计算方法
一种端口故障的解决方案
全民总动员,筑牢防火墙
多按键情况下,单片机端口不足的解决方法
债券市场对外开放的进程与展望
构建防控金融风险“防火墙”
改革开放进程中的国际收支统计
现有网络架构及迁移方案
在舌尖上筑牢抵御“僵尸肉”的防火墙
社会进程中的新闻学探寻