基于刀片服务器平台的并行处理架构及故障定位方法设计
2022-07-07王斯乐
王斯乐
(中国电子科技集团公司第十四研究所 江苏省南京市 210013)
1 引言
雷达需要在复杂的干扰环境下完成目标探测、跟踪、识别等作战任务,是保障空军全天候、全天时作战不可或缺的信息化装备。信息处理分系统作为雷达的重要组成部分,其主要功能是对接收数字采样后的回波进行一系列杂波和干扰抑制处理后进行提取,以获得目标和干扰/杂波的相关信息,并能够在终端上显示,同时实现对全机的工作方式进行控制,其工作性能直接影响到雷达的探测性能。信息处理分系统具有在强主/副瓣干扰、复杂杂波干扰的场景下完成高速高机动目标的检测与信息提取,实现雷达系统多目标搜索、资源调度、目标运动参数估算、雷达工作模式控制、系统修正等功能。
随着作战任务多样化的发展,雷达面临更加恶劣的战场环境和更加复杂的目标特性,为了应对更加复杂的雷达系统要求,现代雷达信息处理机具有极高的运算速度及数据传输能力。某型远程警戒雷达,主要用来完成对飞机等空中目标的搜索警戒,可提供大批量空中目标的方位、距离、高度、敌我属性等综合情报。其信息处理分系统根据工作方式,适应不同的战场环境和战术要求,主要完成干扰抑制、脉冲压缩、MTI(动目标检测)、MTD(动目标显示)、CFAR(恒虚警)、杂波图、副瓣匿影、目标检测与提取、视频送显、点航迹处理等功能。此外,还具备干扰分析、干扰定位、目标识别等功能。典型的信息处理分系统功能框图如图1所示。
图1:信息处理分系统功能框图
2 并行处理架构设计
为完成雷达系统高数据率的处理需求,信息处理分系统采用了基于刀片服务器的集群计算平台,支持软件化、可重构的设计方法,结合由大规模FPGA芯片构成的加速处理器,满足雷达系统智能化处理所需的大运算量、高数据交换和灵活可重构的处理需求。刀片服务器平台包括电源刀片、计算刀片、交换刀片、接口刀片等,基于40Gbps高速数据交换网络构成并行处理架构,采用动态部署策略,各处理功能根据当前工作方式的需要分配计算资源,实现系统资源的高效利用,且硬件平台采用开放式架构,系统集成度高,系统维护性、扩展性好,支持实时重构,升级方便。
计算刀片、交换刀片、接口刀片的架构示意图如图2、图3和图4所示,其中,接口刀片主要负责数据的接收与发送,计算刀片负责数据的存储与处理,交换刀片负责各模块之间的网络通讯和数据交换。
图2:计算刀片架构示意图
图3:交换刀片架构示意图
图4:接口刀片架构示意图
图5所示的是传统的串行处理架构示意图,各处理模块依次顺序完成信息处理。其中,处理模块1完成数据接收与分发,处理模块2完成脉冲压缩处理,处理模块3完成MTI(动目标检测)、MTD(动目标显示)处理,处理模块4完成CFAR(恒虚警)处理,处理模块5完成杂波图处理,处理模块6完成目标检测和提取处理,处理模块7完成点/航迹处理和数据流向后端的分发。
图5:串行处理架构示意图
相比于串行处理架构,基于计算刀片、交换刀片、接口刀片的刀片服务器平台采用了更加便捷可靠的并行处理架构,其硬件架构如图6所示。其中,处理模块1完成前端数据接收与分发,中间处理模块2到处理模块6并行处理,各处理模块独立完成脉冲压缩、杂波抑制、MTI(动目标检测)、MTD(动目标显示)、CFAR(恒虚警)、杂波图、目标检测与提取等信息处理功能,处理模块7完成并行处理架构的数据汇总与点/航迹处理,并完成数据流向后端的分发。
图6:并行处理架构示意图
在传统的串行处理架构中,处理模块是一块接着一块顺着流程完成信息处理的,一旦有一块处理模块出现故障而无法运行,就将导致整个信息处理分系统的无法运行,继而影响整个雷达的工作。而在并行处理架构中,中间的处理模块2到处理模块6完全独立工作,互不影响,一旦有一块处理模块出现故障无法运行,也不会影响其他处理模块的工作,同时,处理模块1通过实时状态查询,也不会再往其发送数据,从而也不影响整个雷达的工作,从而大幅提高了信息处理分系统和整个雷达的稳定性与可靠性。而且处理模块1向后分发数据是依据处理模块2到处理模块6的模块温度、存储空间、CPU及内存使用率等实时动态状态,根据需要分配计算资源,不会出现有的处理模块长时间处理高运算量的大数据,有的处理模块只处理小数据甚至不处理,从而实现系统资源的高效利用。
3 杂波图算法优化设计
在并行处理架构中,图1中所示的大部分信息处理算法都与串行处理架构中的一致,但是需要注意的是,杂波图这一处理算法比较特殊,需要统计一段时间内的杂波背景分布。而在并行处理架构下,中间各块处理模块是独立工作的,互不影响,如果每块处理模块只统计自己所处理的杂波背景分布,那么势必会造成统计上的遗漏,从而对杂波中目标探测能力有所影响,所以必须要对杂波图的算法进行一定的优化处理。
地物杂波主要是来自起伏的地面、树林、高大的建筑物和气象云雨所造成的后向散射,现代军用飞机等空中目标朝着小雷达截面积隐身方向发展,对于提高目标探测能力特别是杂波中目标探测能力非常重要,所以,形成杂波图是解决问题的关键。
杂波图是为了统计空间中的杂波背景分布,一般认为空间杂波背景是平稳的。由于只有搜索方式有固定排布的波束指向和接收波门,这样才能保证空间中某个探测区域内能有稳定的数据进行杂波图统计。杂波图统计对空间探测区域按波位、方位、距离段进行划分,得到一个个杂波图单元,对每个杂波图单元内时间维接收的数据进行迭代统计,得到杂波背景分布的均值和方差。
杂波图区域划分如图7所示。
图7:杂波图区域划分示意图
杂波图分为杂波图更新和杂波图检测两个过程,其中杂波图更新按照一定的迭代规则生成杂波图背景,完成对空间杂波单元的均值、方差进行迭代更新,并对当前幅度归一化,杂波图检测过程输出杂波图检测信噪比。
根据杂波图迭代得到的背景均值μ和标准差σ计算幅度归一化后的结果,计算公式如下:
其中符号定义如下:
S:输入信号幅度,单位dB;
t,t:统计时刻
μ(t):杂波图背景均值。
σ(t):杂波图背景方差
y:杂波图幅度归一化输出。
,b:杂波图归一化系数。
根据该幅度归一化公式的计算过程,我们发现只有稳定连续的输入数据来计算背景均值μ和标准差σ,才能进行杂波图背景统计和归一化输出。因为并行处理架构中的各块处理模块是独立工作的,互不影响,所以若想在并行处理架构中增加杂波图处理,就必须做好杂波背景分布的统计工作。
为了解决这一问题,就需要每块处理模块在处理时,将计算好的杂波图背景均值μ和标准差σ统一存储到某一共享内存空间中,在杂波更新时再从该共享内存中读取背景均值μ和标准差σ,从而保证不会因为并行处理而丢失某一时间的杂波图背景来影响杂波图的统计和归一化输出,继而影响信息处理分系统的杂波中目标探测能力。
4 故障快速定位方法
作为雷达的核心系统,信息处理机自身的工作性能及故障诊断能力显得尤为重要,为了保证雷达信息处理机的稳定工作,一般在进行系统常规维护时,要遵守四条准则:
(1)雷达系统良好的维护和保养是使系统充分发挥性能,降低年维护费用,提高系统可靠性的有效保障。
(2)雷达的维护为了将雷达的故障降低到最低程度,提高雷达的快速反应能力。
(3)雷达的维护分为日维护、周维护、月维护、季维护、年维护。
(4)雷达的维护保养必须严格按说明书规定的方法和步骤操作进行。
在严格的准则之后,基本的维护方法主要包含以下四种:
(1)感触观察法。
“看”—主要是观察雷达各种工作指示灯、故障指示灯及BIT状态是否正常。
“闻”—是否发出特殊的气味,如焦糊味等。
“听”— 主要是指雷达工作期间,是否有“辟叭”的打火声。
“摸”—主要是察看各连接电缆、紧固件是否松动;插件是否过热等。
(2)清洁法。利用清洁剂清除分机内部或外部的灰尘及污垢。
(3)紧固法。对雷达的各种连接电缆、紧固件进行检查加固。
(4)烘干去潮法。采用烘干和通风的办法使雷达设备保持干燥,防止潮气的侵蚀与破坏。
以上各方法中,感触观察法是最直观的方法,对保障人员来说比较容易操作和快速定位排故,从而节省排故时间以保障雷达快速恢复正常工作。所以,我们设计了一种基于刀片服务器平台,利用观察各处理模块指示灯状态的故障快速定位排除方法,该快速故障定位排除方法基于保障人员熟悉信息处理数据流框图和各个处理模块正常工作时的面板指示灯状态。
为了方便雷达保障人员对刀片服务器平台的故障进行快速定位,电源刀片、计算刀片、交换刀片、接口刀片等各个处理模块的面板指示灯在设计过程中,都会随着刀片服务器平台的开机加电和运行过程中数据流的接收、处理、发送来不断闪烁和熄灭,来帮助雷达保障人员实时关注刀片服务器平台的运行状态。典型的刀片服务器平台的处理模块面板指示灯状态如图8所示。
图8:各个处理模块面板指示灯状态
需要注意的是,当信息处理分系统出现故障时,除了信息处理分系统自身故障外,若前端控制指令不正常、硬件接口或者光缆故障也会导致信息处理分系统死机或目标检测不正常,故对信息处理分系统进行故障分析时,必须首先判断是上述问题导致的信息处理分系统故障还是信息处理分系统本身发生故障。
在雷达工作过程中,当确定为信息处理分系统故障时,应按如下步骤进行故障检查、定位和维修:
(1)通过雷达信息处理BIT和雷达工作状态等判断信息处理分系统是否出现故障;
(2)确认信息处理分系统的前端工作状态是否正常;
(3)刀片服务器平台断电约5秒后加电;
(4)约10秒后观察各处理模块的指示灯1和2,亮说明供电正常,一个或者两个暗,说明供电不正常,需排查供电情况;
(5)约2分钟后,交换刀片指示灯1、3、5、6、7、8是否常亮,亮,说明交换刀片正常,任何一个不亮,说明交换刀片故障,需更换备件;
(6)观察所有处理模块的指示灯3,闪烁说明本处理模块的操作系统启动正常,不闪烁,说明本处理模块运行故障,需更换备件;
(7)约3分钟后,观察处理模块1的指示灯5、6、7和8是否同时闪烁,闪烁说明前端输入正常,不闪烁,说明前端数据异常或者处理模块1的工作不正常,需进一步排查前端输入和处理模块1的工作状态;
(8)观察处理模块2到处理模块6的指示灯5、6、7和8是否同时闪烁,闪烁,说明各处理模块工作正常,不闪烁,说明相应处理模块工作不正常,需进一步排查相应处理模块的工作状态;
(9)观察处理模块7的指示灯5、6、7和8是否同时闪烁,闪烁,说明处理模块7工作正常,不闪烁,说明处理模块7工作不正常,需进一步排查处理模块7的工作状态。
刀片服务器平台的故障分析流程图如图9所示。
图9:刀片服务器平台故障分析流程图
因为刀片服务器平台采用了并行处理架构,所以一般情况下,处理模块2到处理模块6若出现故障,并不会影响整个信息处理分系统的工作。但是,雷达保障人员仍要密切关注雷达的BIT信息和各处理模块的指示灯闪烁状态,及时更换有问题的故障模块,避免雷达“带病工作”,影响雷达的使用寿命。
另外,各处理模块指示灯的闪烁和熄灭,后续还可以根据雷达设计师和保障人员的实际需求,不断优化和调整,从而更好的反应刀片服务器平台的工作状态。
5 结论
本文基于某型采用刀片服务器平台的雷达信息处理机,首先介绍了其硬件组成和原理框图,接着相比于传统的串行处理架构,设计了一种新的并行处理架构,并对并行处理架构下的杂波图算法进行了优化设计,然后介绍了一种利用处理模块指示灯状态的快速排故方法。
基于刀片服务器平台的并行处理架构,系统集成度高,系统维护性、扩展性好,支持实时重构,升级方便,可以实现系统资源的高效利用,并大幅提高信息处理机和整个雷达的稳定性与可靠性。
在利用处理模块指示灯状态的快速故障排除过程中,维护维修人员需严格按照说明书规定的方法和步骤操作,并严格遵守雷达操作安全规定。维护维修人员应经过严格的专业技术训练,熟悉设备工作原理和技术参数,并且不断深入学习相应维修方法,保障系统稳定高效工作,最后一定能保障雷达正常工作。
最后,该并行处理架构和利用指示灯快速排故的方法也可以推广到所有采用类似刀片服务器平台的产品中去,为类似产品提供了良好的架构设计,故障定位模板和排故经验。