APP下载

西南某地语音记录仪频繁宕机原因分析

2023-10-30祁振杰

科学与信息化 2023年20期
关键词:宕机死机网络流量

祁振杰

民航贵州空管分局 贵州 贵阳 550005

引言

语音记录仪在空管行业内十分重要,旨在记录空中交通管制员对空通话、电话等录音,记录的数据主要用于事件调查、回溯还原指挥现场的情况等。通常,语音记录仪系统中配备的记录单元所保存数据的硬盘通常使用raid技术[1],防止记录仪主机的记录单元故障的情况下,造成语音记录的缺失。

1 西南某地记录仪宕机事件

自2021年12月10日,西南某地的现场过渡搬迁正式运行后,记录仪系统发生多次的宕机现象,宕机后的主机具体表现为:USB口无法使用、网络无法启用、屏幕显示故障前的最后画面,需断电重启宕机记录单元才能恢复。

现场2022年8月26日于进行了软件升级后,8月27日至9月27日期间,宕机次数明显增加,为36次,表现为不同单元、不同时间,宕机无规律可循,给现场的生产运行造成了一定的风险隐患。

2 记录仪的网络结构

2.1 网络结构-千兆双交换机级联

如图1所示,A、B两台千兆交换机使用网线(橙色)直接连接,实现普通端口级联。

图1 网络拓扑结构

每台记录单元的主机上有两个物理网口,通过Linux双网卡绑定技术(被称为bonding),实现使用两块网卡虚拟成为一块网卡,即两块网卡具有相同的IP地址而并行链接聚合成一个逻辑链路工作。两个物理网口分别使用网线(红色、蓝色)接入A、B交换机。

2.2 软件结构[2-3]

如图2所示,西南某地语音记录仪的软件结构主要分为3部分,公共模块(网络代理程序、守护进程)、语音记录部分、控制部分。

图2 语音记录仪软件结构

3 记录仪厂家进行的实验

2022年2月至8月,现场与厂家联合开展了11记录单元工控机部件更换,先后完成了内存条更换、记录仪工控机更换、主板插槽更换、挡片更换、话音卡更换、磁盘阵列和话音卡压条更换、底板更换、压条紧固操作、擦拭板卡金手指等操作,但宕机问题仍然存在,未能定位宕机原因。

3.1 对比8月27日升级前后的网络流量

现象:升级前后,主要体现在记录仪内网数据流量对比升级前增大近10倍,厂家在各个测试主机部署网络冲击程序模拟放大网络流量,分析网络流量冲击下死机频率变化。

初步判断:主机宕机,因升级后比升级前网络流量增大,死机的概率有所增加。

采用排除法:

3.1.1 硬件排除。9月20日-10月26日,测试电源模块,死机依旧。结论:与电源模块无关。

10月24日开始,更换主机品牌后,未出现死机。

3.1.2 软件排除。10月25日,不运行记录仪程序,只运行网络代理进行和单元控制进程,含网络冲击进程,判断死机与记录进程、界面进程无关。

11月11日后,不运行记录仪相关的所有程序,包含网络代理进行和单元控制进程,只运行网络发送程序。

表1 分组对比的设备情况

3.1.3 分组进行对比测试。如上表所示,10月29日-11月6日,测试环境33台,分为4组,第1、2组为与西南某现场相同的记录单元5U定制主机,第3组为与现场相同的4U原装主机,第4组为普通台式主机。

第1、2、3组中,将7台主机的配置为:1台模拟话音记录单元、2台E1记录单元、2台VOIP记录单元、2台雷达记录单元,全部加载不低于现场数据流量的测试数据(如模拟话音信号、E1话音数据、VOIP话音数据、雷达数据)。第4组共12台记录单元,采用普通品牌台式机,配置为VOIP记录单元。

结论:在10月25日部署网络冲击程序,10月25日至11月6日,共宕机15台次,比部署前明显增加,可证明死机频率与网络流量具有相关性。因此,后续测试重点放在网络相关部分。

11月3日至12月17日,第1组、第2组为对比测试组,通过单接入集成网卡,加装独立网卡,停止所有记录仪相关程序,解除网卡绑定等5种排除的方法。

结论:加装独立网卡,解除网卡绑定,可以解决宕机问题。

11月3日至12月17日,第3组测试,通过单接入集成网卡,加装独立网卡,停止所有记录仪相关程序,解除网卡绑定等5种排除的方法。

结论:更换主机,加装独立USB网卡,可以解决宕机问题。

11月3日至12月15日,第4组测试中主机为普通台式PC主机,与第1组至第3组已测试的各网卡芯片不同,为intel i218,intel i219芯片,且试验采用单网卡接入,从10月25日开始,在网络冲击情况下一直未出现死机现象。

结论:更换主机,解除绑定可以解决宕机问题。

4 原因分析

经过以上测试,造成此次宕机的原因可能有如下几点。

4.1 硬件原因

网卡故障:语音记录仪的主机是整个系统的核心,如果主机出现故障,将导致整个语音记录仪无法正常工作。

兼容性问题:语音记录仪网卡硬件与的驱动可能与其他系统或设备存在兼容性问题,导致宕机。

4.2 软件原因

此次宕机事件主要在8月底升级语音记录仪软件后,宕机次数显著上升,语音记录仪的软件可能存在错误或漏洞,导致系统宕机。

5 结论与建议

根据本文实验测试结果与分析,网卡驱动与硬件的兼容性问题,有可能是引起此次宕机的直接原因。

建议:更换物理网卡,适当的时机升级语音记录仪软件网络代理程序。

同时,为了降低语音记录仪宕机的风险,可以采取以下措施:①定期维护和检修:定期对语音记录仪进行维护和检修,包括清洁、检查硬件的工作状态等,以确保其正常运行。②备份和冗余:设置语音记录仪的备份系统,将数据存储在多个设备上,以便在一个设备发生故障时,可以切换到备份设备继续记录。③监控和报警系统:设置监控系统,对语音记录仪的状态进行实时监测,并设置报警机制,一旦发现异常情况,及时通知相关人员进行处理。

6 结束语

经过分析与测试,西南某地空管语音记录仪频繁宕机的原因可能是硬件故障、软件故障、驱动程序与硬件兼容性问题。为了降低宕机风险,需要定期维护和检修设备,备份数据,加强系统的监控,及时发现并处理异常情况。

猜你喜欢

宕机死机网络流量
电脑死机时在干什么
提醒
基于多元高斯分布的网络流量异常识别方法
基于神经网络的P2P流量识别方法
岛内人口普查刚启动就遇“宕机”
AVB网络流量整形帧模型端到端延迟计算
基于集中采购的分布式系统的设计与实现
一起民航气象数据库系统进程频繁宕机故障分析及处理方法
脸死机了
艾默生网络能源发布《2016年数据中心宕机成本》