精确制导武器末制导目标识别优化算法研究
2022-03-11赵晓冬张洵颖车军陈法扬张琳琳
赵晓冬 张洵颖 车军 陈法扬 张琳琳
摘要:针对目前精确制导武器末制导系统智能化发展面临的挑战,结合智能目标识别算法在嵌入式硬件上的计算需求,选取针对小目标具有较好检测效果的YOLOv3网络进行优化部署验证。研究基于BatchNorm层的双正则项神经网络裁剪优化算法、基于TensorRT的INT8量化技术以及面向FPGA计算架构的INT8训练与量化协同优化算法。针对YOLOv3网络结构,在三种典型嵌入式硬件平台上进行优化性能验证,包括NVIDIA Jetson Xavier平台、FPGA EC2实例平台和Xilinx Ultrascale+ MPSoC ZCU104平台。结果表明,本文提出的优化算法可以在网络识别精度与推理速度之间获得较好的均衡。
关键词:末制导目标识别;YOLOv3;神经网络优化;Jetson Xavier;FPGA
中图分类号:TP391.4文献标识码:ADOI:10.19452/j.issn1007-5453.2022.01.015
基金项目:航空科学基金(201907053005,2019ZC053018)
在现代战争中,精确制导武器越来越占据重要地位,它和隐身飞机被并列为美国及其西方盟国赢得冷战竞争的主要手段[1]。精确制导技术的发展尤其是精确寻的末制导技术的发展是提升精确制导武器作战性能的关键[2-3]。
在现代化战争中,作战环境复杂性、目标特征变化性的不断提高给精确制导系统带来了新的挑战[4-5]。复杂战场环境下的目标自主识别与智能打击已成为精确制导武器智能化的最显著特征。近年来,基于深度学习的目标识别与跟踪技术[6]已在人脸识别、自动驾驶等民用领域表现出卓越的性能,并成为解决自动目标自主识别问题的一种有效途径。但是基于深度学习的机器视觉技术在精确制导武器弹道末端自主目标识别[7]与智能打击等军事应用中,仍需要解决三项关键问题,包括智能算法设计、嵌入式智能计算平台和大规模目标数据集[8]。卷积神经网络(convolutional neural networks, CNN)通过训练学习图像的颜色、边缘、纹理、形状以及拓扑结构等特征,并对特征进行准确描述[9],基于CNN的结构广泛适用于各类智能图像处理算法。基于深度学习的目标识别过程描述如下:建立深度网络模型;在大规模分类数据集上进行算法模型的预训练;基于预训练结果,在目标识别数据集上训练直至收敛;在嵌入式智能计算平台上进行实时推理,在线生成信息情报。
当前,基于深度学习的目标识别算法[10]分为基于候选区域的算法和基于回归的算法两大类。前者以候选区域为前提,在图像中首先提取候选区域,并在对其进行优先搜索后进行分类。候选区域类算法的经典算法包括R-CNN、Fast R-CNN[11]、Faster R-CNN[12]等。回归类算法不需要花费时间提取多余的候选区域,以回归的方式对整个目标进行检测,属于端到端的算法。回归类算法主要包括SSD、YOLO算法系列[13]等。其中,YOLO系列算法推理速度快,既可以满足实时性的要求,又可以获得较为满意的检测精度,很多深度学习框架都可以很好地支持算法实现。考虑到末制导图像可能包含多类型小目标的特点以及末制导过程对于实时性处理的强烈需求,本文以对小目标检测能力较强的YOLOv3网络[14]为研究对象,进行神经网络优化算法研究;同时,以实测可见光和红外数据集为训练集,在三种类型的嵌入式计算平台上,进行优化后算法的识别效果验证。
嵌入式智能计算平台受限资源下的计算效能,与深度学习推理计算过程的复杂性相矛盾。通过神经网络优化技术[15-16],可以将复杂度高、参数规模大、能耗高、推理速度慢、不适于嵌入式硬件实现的原始网络模型,优化为精度损失较小、模型复杂度低、能耗低、适于嵌入式硬件实现、推理速度满足实时系统需求的轻量化网络模型[17]。
本文首先選择在精度和速度两方面表现均衡并对小目标有较强检测能力的YOLOv3目标识别网络,作为神经网络优化算法验证的输入;其次,提出基于BatchNorm层实现的双正则项裁剪优化算法、以及针对FPGA计算架构的INT8定点数据量化优化算法,并详细分析了基于TensorRT的INT8量化技术;最后,分别基于ARM+GPU结构的Jetson Xavier嵌入式平台、FPGA EC2仿真实例平台和Xilinx Ultrascale+MPSoC ZCU104平台三种嵌入式计算平台,进行目标识别效果验证。
1 YOLOv3算法网络结构
YOLOv3的网络结构组成图如图1所示,具体由特征提取网络(Darknet-53)和预测网络两部分组成。从结构上讲,Darknet-53网络引入了ResNet网络中的残差结构[18],由于深度加深,因此Darknet-53网络的特征提取能力更强。
卷积正则激活组件(Conv2D-BN-Leaky relu,Conv)是YOLOv3网络的基本构成部件,由卷积层Conv2D、归一化层BatchNorm和Leaky Relu激活函数组成。
张量拼接Concat是YOLOv3网络的构成特色之一。YOLOv3网络通过张量拼接方式可以提取到深层特征和浅层特征,通过将不同倍率降采样的张量特征与当前上采样层的张量特征进行拼接,可以获得高维度特征张量,进而更好地分析语义特征。
2神经网络裁剪算法
目前,针对神经网络进行裁剪的压缩算法研究较多,其中较为基础的是基于阈值方法对网络权重进行整体裁剪的裁剪滤波器,其原理是针对每层中滤波器权重绝对值之和大于阈值的权重进行保留。该类型算法实现简单,但不能将训练过程与裁剪过程相结合,导致裁剪后的网络精度较差。为了保持网络模型结构裁剪后的识别精度,参考文献[16]提出了一种针对CNN的通用化通道选择裁剪算法,通过稀疏化尺度因子裁剪掉“不重要”的通道。本文在此基础上,提出基于BatchNorm层及双正则项优化的改进型神经网络裁剪算法。
正则化[19]技术可以降低网络模型复杂度,提高网络稳定程度,防止出现过拟合情况。在正则化框架中,目标函数同时考虑两种基于不同正则化方式的缩放比例因子项。将基于L1正则项和L2正则项的BatchNorm层缩放因子,同时作为优化约束正则项,并基于训练获得针对数据集最优的正则项系数。目标函数如(1)所示:
![](https://img.fx361.cc/images/2022/03/11/qkimageshkxjhkxj202201hkxj20220115-1-l.jpg)
![](https://img.fx361.cc/images/2022/03/11/qkimageshkxjhkxj202201hkxj20220115-2-l.jpg)
本文提出的基于BatchNorm层的双正则项裁剪优化算法,是一种针对CNN不同网络结构进行优化的通用化神经网络压缩算法。目标函数优化策略描述如下:通过结合不同正则项的优势,将BN层的缩放因子作为双正则项优化约束策略,同时归入目标函数,进行稀疏化训练,缩放因子与其对应通道的重要性成正相关关系。在训练过程中,对不重要的通道进行自适应裁剪,从而压缩网络模型,加快推理速度。
网络裁剪过程如图2所示,网络裁剪过程由稀疏化训练、剪枝和微调网络三部分组成,通过循环执行对裁剪后的网络进行迭代训练,获得更高的压缩比,从而获得满足精度损失需求的网络裁剪结果。
![](https://img.fx361.cc/images/2022/03/11/qkimageshkxjhkxj202201hkxj20220115-3-l.jpg)
针对精确制导武器末制导目标识别算法对于图像数据集的需求,选取实测可见光和红外图像作为两种类型训练数据集,并且均基于真实目标应用场景进行拍摄。两种类型的数据集属性描述如下:可见光数据集包含6834个训练集和784个测试集;红外数据集包含3070个训练集和315个测试集。两类数据集各自包含5个种类,分别是坦克、越野车、汽车、卡车和装甲车。
参考文献[16]中的裁剪算法和本文提出的裁剪算法,在可见光数据集和红外数据集上的识别精度结果见表1。表1中的结果是多次推理计算后所统计出的最优识别结果。
从表1的统计结果可以看出,基于训练与裁剪同步的网络裁剪算法,可以在网络精度损失较小的情况下,有效压缩网络权重。相比参考文献[16]中的裁剪算法,本文裁剪算法在权重压缩比相同的情况下,在两种数据集上的识别精度均优于前者。
3神经网络量化算法
神经网络模型量化是影响目标识别网络精度的重要因素。本节首先介绍基于ARM+GPU平台的量化方法,然后提出基于ARM+FPGA平台的量化算法。
3.1基于ARM+GPU平台的量化方法
NVIDIA Jetson Xavier平台是一种ARM+GPU异构计算平台,TensorRT[20]量化方法是基于该类型平台实现的较为成熟的量化方法。TensorRT将真实值直接映射到INT8上,为了避免简单的量化方法造成位寬浪费,进而导致精度下降,TensorRT运用了饱和映射的量化方法,如图3所示。饱和映射的主要思想是确定阈值|T|,在±| | T范围内的数据值,将被映射到±127范围中。
![](https://img.fx361.cc/images/2022/03/11/qkimageshkxjhkxj202201hkxj20220115-4-l.jpg)
![](https://img.fx361.cc/images/2022/03/11/qkimageshkxjhkxj202201hkxj20220115-5-l.jpg)
TensorRT基于饱和映射技术进行量化,影响其精度的重要因素之一是如何选择最优阈值。TensorRT中使用真实数据对阈值T的选择进行校准,并利用校准表来实现INT8的量化推理过程。经过校准后的精度损失大大降低,能够满足要求,并且量化计算过程简单,可以获得较大的性能提升。
3.2基于ARM+FPGA平台的量化算法
FPGA计算架构可以在同一时刻进行并行运算,有效提高资源的利用率。FPGA计算处理单元的结构图如图4所示,可以看出,在FPGA计算处理单元中,并行数据处理主要体现在输入通道并行、卷积核核间并行、输出通道并行三个方面。
![](https://img.fx361.cc/images/2022/03/11/qkimageshkxjhkxj202201hkxj20220115-6-l.jpg)
在量化协同训练过程中,根据经验阈值设定相应的量化步长和训练参数。采取的具体策略包括:两组相同权重同步训练、每组组内细分分组、组间对比逐步量化权重;对于每次未量化的权重部分,在量化过程当中进行新一轮的迭代求解,直到所有参数全部完成量化,从而获得最优的量化结果。经过算法INT8定点量化后的网络权重,可以在保持网络精度的同时,以移位计算的方式在FPGA上获得硬件加速,显著提升执行效率。
4仿真验证
本文选取三种不同框架的计算平台进行优化算法验证,包括基于ARM+GPU结构的嵌入式硬件平台Jetson Xavier、FPGA EC2仿真硬件平台和Xilinx Ultrascale+ MPSoC系列中基于ARM+FPGA结构的硬件平台ZCU104。
4.1 Jetson Xavier平台仿真验证
NVIDIA Jetson Xavier是一种异构嵌入式平台[21],硬件采用ARM+GPU设计结构。GPU架构可以为深度学习网络提供高密集的计算CUDA核心。NVIDIA Jetson Xavier实物图如图5所示,其中红色框内为加速组件。
![](https://img.fx361.cc/images/2022/03/11/qkimageshkxjhkxj202201hkxj20220115-7-l.jpg)
Jetson Xavier可以满足优化算法嵌入式硬件验证研究所需的功能与性能需求。本文结合TensorRT INT8量化技术和网络裁剪优化技术共同实现目标识别优化算法加速。基于Jetson Xavier平台进行验证时,在图像输入尺寸为416px×416px时,YOLOv3算法在可见光数据集和红外数据集上的识别结果统计情况见表2。表2中的结果是多次推理计算后所统计出的最优识别结果。
![](https://img.fx361.cc/images/2022/03/11/qkimageshkxjhkxj202201hkxj20220115-8-l.jpg)
验证结果表明,YOLOv3网络经过本文提出的裁剪算法和TensorRT INT8定点数据量化算法优化后,在Jetson Xavier平台上推理部署时,运行速度有了显著提高。针对不同数据集,裁剪后推理速度稍有差异,其原因在于网络裁剪优化结果与训练数据集直接相关。
4.2 FPGA EC2仿真实例平台验证
FPGA EC2实例是一种借Web服务的方式,让使用者付费使用云端服务器FPGA资源,进而验证所开发FPGA系统的应用。FPGA EC2仅提供Web服务接口,用户通过Linux系统调用相关FPGA资源服务实例,其FPGA平台为多个Xilinx 16nm Virtex UltraScale+器件VU9P,并基于服务实例资源使用情况分时在多个VU9P上验证。本文基于Developer AMI中的c5.large实例进行验证,资源服务实例如图6所示。
![](https://img.fx361.cc/images/2022/03/11/qkimageshkxjhkxj202201hkxj20220115-9-l.jpg)
YOLOv3算法经过本文提出的裁剪和FPGA INT8量化算法优化后,在FPGA EC2仿真实例上的运行过程如下:建立EC2调用实例;调用FPGA仿真模块;配置FPGA仿真频率为75MHz。基于EC2实例接口进行调用的调用图和配置图如图7所示。
基于FPGA EC2仿真实例进行验证时,在图像输入尺寸为416px×416px时,YOLOv3算法在可见光数据集和红外数据集上的识别结果统计情况见表3。表3中的结果是多次推理计算后所统计出的最优识别结果。
![](https://img.fx361.cc/images/2022/03/11/qkimageshkxjhkxj202201hkxj20220115-10-l.jpg)
![](https://img.fx361.cc/images/2022/03/11/qkimageshkxjhkxj202201hkxj20220115-11-l.jpg)
验证结果表明,YOLOv3网络经过本文提出的裁剪算法和FPGA INT8定点数据量化算法优化后,在FPGA EC2仿真实例上推理部署时,能够取得良好的加速效果。YOLOv3算法经过裁剪和FPGA INT8量化后,运行速度有了显著提高。
4.3 ZCU104硬件加速器平台仿真验证
ZCU104硬件加速器如图8所示,其中红色框内为加速组件。基于实际拍摄的可见光和红外图像数据集,在ZCU104平台上,部署验证本文所提出的末制导目标识别优化算法效果。
![](https://img.fx361.cc/images/2022/03/11/qkimageshkxjhkxj202201hkxj20220115-12-l.jpg)
针对可见光数据集,网络结构裁剪及INT8量化前的目标识别结果如图9所示,网络结构裁剪0.3/0.6比例、同時经过INT8定点数据量化后的识别结果如图10~图12所示。
![](https://img.fx361.cc/images/2022/03/11/qkimageshkxjhkxj202201hkxj20220115-13-l.jpg)
针对红外数据集,网络结构裁剪及INT8量化前的目标识别结果如图13所示,网络结构裁剪0.3/0.6比例、同时经过INT8定点数据量化后的识别结果如图14~图16所示。
![](https://img.fx361.cc/images/2022/03/11/qkimageshkxjhkxj202201hkxj20220115-14-l.jpg)
![](https://img.fx361.cc/images/2022/03/11/qkimageshkxjhkxj202201hkxj20220115-15-l.jpg)
基于ZCU104进行验证时,在图像输入尺寸为416px×416px时,YOLOv3算法在可见光数据集和红外数据集上的识别结果统计情况见表4。表4中的结果是多次推理计算后所统计出的最优识别结果。
验证结果表明,YOLOv3网络经过本文提出的裁剪算法和FPGA INT8定点数据量化算法优化后,在Xilinx ZCU104平台上推理部署时,可以在保持原始网络识别精度的基础上,获得较高的推理帧频。
![](https://img.fx361.cc/images/2022/03/11/qkimageshkxjhkxj202201hkxj20220115-16-l.jpg)
5结论
为了解决嵌入式受限资源条件下智能算法的应用问题,提升精确制导武器末制导系统的目标智能识别性能,本文提出了基于裁剪和INT8定点数据量化的目标识别优化算法。应用本文提出的神经网络裁剪算法以及TensorRT量化技术和本文提出的基于FPGA平台的量化算法,对YOLOv3目标识别网络进行裁剪量化优化,并在Jetson Xavier、FPGA EC2仿真实例和ZCU104三种不同的嵌入式硬件平台进行部署验证。验证结果表明,本文提出的基于裁剪和量化的神经网络优化算法,针对YOLOv3目标识别网络进行优化时,在网络精度与推理速度间获得了较好的均衡。本文的优化算法思想,为嵌入式受限资源下智能算法的应用问题提供了崭新的思路。
下一步将进一步研究基于FPGA硬件加速器的软硬件优化[22-24]技术,探索性能更加优越的神经网络优化算法,为精确制导武器末制导目标识别系统提供更加智能的技术解决方案。
![](https://img.fx361.cc/images/2022/03/11/qkimageshkxjhkxj202201hkxj20220115-17-l.jpg)
参考文献
[1]范晋祥,侯文涛.防空反导精确寻的末制导技术的发展与思考[J].空天防御, 2020(3): 31-37. Fan Jinxiang, Hou Wentao. Development and thinking of precision homing terminal guidance technology for air and missile defense[J]. Air & Space Defense, 2020(3): 31-37. (in Chinese)
[2]殷希梅,康焰清.無人机载精确制导炸弹技术发展趋势[J].兵工自动化, 2021, 40(9): 92-96. Yin Ximei, Kang Yanqing. Development trend of UAV-borne precision guided bomb technology[J]. Ordnance Industry Automation, 2021, 40(9): 92-96. (in Chinese)
[3]邓平煜,裘旭益,姚子羽.航空军事领域的人机混合智能技术[J].航空科学技术, 2020, 31(10): 3-6. Deng Pingyu, Qiu Xuyi, Yao Ziyu. Human-machine hybrid intelligencetechnologyinmilitaryaviationfield[J]. Aeronautical Science & Technology, 2020, 31(10): 3-6. (in Chinese)
[4]高晓冬,王枫,范晋祥.精确制导系统面临的挑战与对策[J].战术导弹技术, 2017(6): 62-69, 75. Gao Xiaodong, Wang Feng, Fan Jinxiang. The challenges and development paths for precision guidance system[J]. Tactical Missile Technology, 2017(6): 62-69, 75. (in Chinese)
[5]武文峰,靳凌,周桃品.临近空间高超声速目标防御制导策略研究[J].航空科学技术, 2020, 31(3): 68-72. Wu Wenfeng, Jin Ling, Zhou Taopin. Research on defense and guidance strategy of hypersonic target in near-space[J]. Aeronautical Science & Technology, 2020, 31(3): 68-72. (in Chinese)
[6]张洵颖,赵晓冬,裴茹霞,等.无人车地面目标识别及其优化技术研究[J].无人系统技术, 2020(6): 59-67. Zhang Xunying, Zhao Xiaodong, Pei Ruxia, et al. Research on ground target recognition and optimization technology of unmanned vehicle[J]. Unmanned Systems Technology, 2020(6): 59-67. (in Chinese)
[7]范晋祥,刘嘉.精确制导自动目标识别智能化的挑战与思考[J].航空兵器, 2019, 26(1): 30-38. Fan Jinxiang, Liu Jia. Challenges and thinking for the precision guidance ATR intelligentization[J]. Aero Weaponry, 2019, 26(1): 30-38. (in Chinese)
[8]宋婷,贺丰收,程宇峰.深度学习技术在雷达目标检测中的研究进展[J].航空科学技术, 2020, 31(10): 12-20. Song Ting, He Fengshou, Cheng Yufeng. Research progress of deeplearningtechnologyinradartargetdetection[J]. Aeronautical Science & Technology, 2020, 31(10): 12-20. (in Chinese)
[9]Yanagisawa H,Yamashita T,Watanabe H. A study on object detection method from manga images using CNN[C]//2018 International Workshop on Advanced Image Technology(IWAIT),2018:1-4.
[10]韩伊娜.基于深度学习的目标检测与识别算法研究[D].西安:西安科技大学, 2020. Han Yina. Research on target detection and recognition algorithm based on deep learning[D]. Xi’an: Xi’an University of Science and Technology, 2020. (in Chinese)
[11]GirshickR.FastR-CNN[C]//2015IEEEInternational Conference on Computer Vision(ICCV),2015:1440-1448.
[12]Ren S Q,He K M,Girshick R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEETransactionsonPatternAnalysisandMachine Intelligence,2017,39(6):1137-1149.
[13]Redmon J,Divvala S,Girshick R,et al. You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2016:779-788.
[14]Redmon J,Farhadi A. YOLOv3:an incremental improvement[C]//IEEE Conference on Computer Vision and Pattern Recognition,2018.
[15]Huang J H,Sun W Z,Huang L. Deep neural networks compression learning based on multiobjective evolutionary algorithms[J]. Neurocomputing,2020,22:260-269.
[16]Liu Z,Li J G,Shen Z Q,et al. Learning efficient convolutional networks through network slimming[C]//2017 International Conference on Computer Vision,2017:2755-2763.
[17]Zhang P F,Ran H Y,Jia C Y,et al. A lightweight propagation path aggregating network with neural topic model for rumor detection[J]. Neurocomputing,2021,458(10):468-477.
[18]Zhang X L,Dong X P,Wei Q J,et al. Real-time object detection algorithm based on improved YOLOv3[J]. Journal of Electronic Imaging,2019,28(5):53022.
[19]Zhu D,Song X D,Yang J,et al. A bearing fault diagnosis method based on L1 regularization transfer learning and LSTM deep learning[C]//2021 IEEE International Conference on InformationCommunicationandSoftwareEngineering(ICICSE),2021:308-312.
[20]Tao L,Hong T,Guo Y C,et al. Drone identification based on CenterNet-TensorRT[C]//2020 IEEE International Symposium onBroadbandMultimediaSystemsandBroadcasting(BMSB),2020:1-5.
[21]Wang X J,Zhou Z G,Li Y. Design of moving target tracking system based on Jetson platform[C]//2020 IEEE International Conference on Artificial Intelligence and Information Systems(ICAIIS),2020:371-375.
[22]Li S C,Wen W,Wang Y,et al. An FPGA design framework for CNN sparsification and acceleration[C]//2017 IEEE 25th Annual International Symposium on Field-Programmable Custom Computing Machines(FCCM),2017:28.
[23]Han S,Kang J L,Mao H Z,et al. ESE:efficient speech recognition engine with sparse LSTM on FPGA[C]//Proceedings of the 2017 ACM/SIGDA International Symposium on Field- Programmable GateArrays,2017:75-84.
[24]Kim H,Choi K. Low power FPGA-SoC design techniques for CNN-based object detection accelerator[C]//2019 IEEE 10th AnnualUbiquitousComputing,Electronics&Mobile Communication Conference(UEMCON),2019:1130-1134.
Research on Optimization Algorithm of Terminal Guidance Target Recognition for Precision-Guided Weapons
Zhao Xiaodong1,Zhang Xunying1,Che Jun2,Chen Fayang2,Zhang Linlin1
1. Northwestern Polytechnical University,Xi’an 710072,China
2. National Key Laboratory of Science and Technology on Aircraft Control,AVIC Xi’an Flight Automatic Control Research Institute,Xi’an 710076,China
Abstract: In view of the challenges faced by the intelligent development of the precision-guided weapon terminal guidance system, combined with the computing requirements of intelligent target recognition algorithm on embedded hardware, the YOLOv3 network with good detection effect for small targets is selected for optimization and deployment verification. The paper studies the pruning algorithm of double regular terms based on BatchNorm layer, the INT8 quantization technology based on TensorRT, and the INT8 training and quantization collaborative optimization algorithm for FPGA computing architecture. Aiming at the YOLOv3 network structure, the optimization performance verification is carried out on three typical embedded hardware platforms, including NVIDIA Jetson Xavier platform, FPGA EC2 instance platform and Xilinx Ultrascale+MPoC ZCU104 platform. The results show that the optimization algorithm proposed in this paper can achieve a good balance between the network recognition accuracy and inference speed.
Key Words: terminal guidance target recognition; YOLOv3; neutral network optimization; Jetson Xavier; FPGA
3251500338290