基于L1-2 时空域总变分正则项的红外弱小目标检测算法
2023-10-07赵德民林再平
赵德民,孙 扬,林再平,熊 伟
(1.航天工程大学, 北京150001;2.航天东方红卫星有限公司, 北京100080;3.国防科技大学电子科学学院, 湖南 长沙 410073)
1 引 言
红外弱小目标检测技术是一些红外搜索和跟踪(infrared search and tracking,IRST)系统的关键技术,例如反导系统和早期红外预警系统。由于军事任务的特殊性,IRST 系统需要尽早准确地发现目标,为部署和反击提供充足的时间。然而由于成像距离较远,红外目标的尺寸非常小,缺乏形状信息和纹理信息。此外,目标所处的背景非常复杂,例如天空背景和海天背景等,包含了强烈起伏的边缘和复杂噪声,导致红外目标的信噪比很低[1-3]。因此,红外目标检测是一项具有挑战性的任务。
一般而言,现有的红外弱小目标检测方法可以分为两类,包括跟踪前检测(track before detection,TBD)方法[4-6]和检测前跟踪(detection before track,DBT)方法[7-8]。TBD 方法利用图像序列的帧间关联信息,对目标所有可能的运动区域和轨迹进行跟踪搜索,然后将目标能量进行累加求得后验概率,最后采用设定的阈值判断是否为正确的目标轨迹。TBD 算法的典型代表包括三维匹配滤波器[9]和三维双向滤波算法[10]等。
与TBD 算法相比,DBT 方法则主要基于单帧检测得到目标候选点,然后利用目标轨迹的连续性排除虚假目标,典型代表主要包括基于空域信息的滤波类方法、基于视觉注意机制(human visual system,HVS)的方法、基于深度学习的方法和基于稀疏性和低秩性重构的方法。其中,基于空域信息的滤波类方法主要利用目标灰度“奇异性”和背景区域缓变性的差异对背景杂波进行抑制,提取目标,这类方法主要包括形态学滤波器[11](Tophat)、最大均值滤波器、最大中值滤波器[12](Maxmedian)等。这类方法计算量小同时易于实现,但是当背景剧烈变化时,背景预测误差较大,会在目标图像中残留很多背景干扰,引起虚警,因此这类方法适用于背景变化平缓的场景。
HVS 方法将红外弱小目标假设为人体视觉的注意区域,其具有与局部背景高对比度的显著点,同时假设背景在纹理上具有一定的自相关性,在强度上不断连续变化。这一类方法最早起源于拉普拉斯—高斯滤波方法(Laplacian of Gaussian,LoG)[13],随后不断有学者在其基础上进行改进,发展出包括局部对比度测量法(local contrast measure,LCM)[14],基于多尺度区域的对比度测量法(multiscale patch-based contrast measure,MPCM)[15]和加权局部差异测量法(weighted local difference measure,WLDM)[16]。上述这些方法在在复杂背景下,背景的杂波干扰与目标在显著性方面差异不大时,无法有效区分目标和杂波。
基于深度学习的目标检测方法在传统光学目标检测领域取得了优异成绩,从而不少学者也将该方法引入到红外弱小目标检测领域。现有的红外目标智能检测方法可以分为基于框标注(anchor)的目标检测方法以及基于像素级(pixel)图像分割方法。Mcintosh 等人[17]探索了通用目标检测方法Faster RCNN 的应用性能,他们对通用目标检测框架生成的特征向量进行优化,使得性能得到进一步的提升。文献[18]提出了一种结合跨尺度融合与瓶颈注意力模块的轻量型红外小目标检测网络(light-weight infrared small target detection network,LIRDNet),综合考虑了工程应用中的运行效率问题。文献[19]提出了一种密集瓶颈注意网络(dense nested attention network,DNA-Net),该方法实现了红外图像不同特征的交互,使得红外弱小目标信息在深层网络结构中得以保存。
近年来,基于稀疏性和低秩性重构的目标检测方法受到很多学者的关注,它假设缓慢变化的背景具有低秩性,而相较于背景只占据极少像素数的目标具有稀疏性,然后可以利用低秩重构方法将背景和目标分离,从而达到检测目标的目的。这类方法最早是文献[20]提出的基于红外图像块 (infrared patch image model,IPI)的目标检测方法。该方法将红外图像中的背景和目标表示为一个加性模型,利用鲁棒主成分分析法(robust principal component analysis,RPCA)[21]进行优化求解。后续很多学者在IPI 方法的基础上提出了很多改进算法。文献[22]将二维矩阵扩展到三维张量空间,提出了基于加权红外图像张量块(reweighted infrared patch-tensor image,IPT)的目标检测方法。文献[23]挖掘序列图像中的时空域信息,提出了基于加权Schatternp范数和时空域红外张量块模型(weighted Schattenpspatial-temporal IPT,WSNMSTIPT),进一步提高了目标检测精度。文献[24]针对复杂噪声场景下的目标检测问题,提出了基于非独立同分布混合高斯模型的目标检测方法,大大提高了复杂噪声干扰下检测算法的鲁棒性。文献[25]针对高亮杂波干扰场景下的目标检测问题,提出了基于多子空间学习的目标检测算法,解决了单一子空间方法在处理高亮杂波时极易引起虚警的问题。但是上述方法在红外图像背景包含强烈起伏的边缘和角点时,往往会在目标图像中残留很多背景干扰,极易引起虚警。这是由于上述方法通常假设只有弱小目标才具备稀疏性,因此对目标所处的邻域背景的平滑程度依赖性很强,而背景中的边缘和角点相较于其余背景成分也仅占少数比例,所以它们与目标一样具有一定的稀疏性,导致目标重构时这些背景干扰残留在目标图像中,无法通过简单的阈值处理剔除这些虚警。
为了解决地面背景或海天背景中强烈起伏的边缘和角点对目标检测性能的影响,提高目标成分和背景成分的重构精度,本文提出了基于L1-2时空域总变分正则项的红外弱小目标检测算法(L1-2spatial-temporal total variation,L1-2STTV)。首先,将输入的红外图像序列转化为时空域张量块模型,采用高维张量的数据结构充分利用帧间的时空域关联信息。然后,采用基于张量主成分分析数学模型将目标成分和背景成分进行重构分离。其中,对于具有低秩性的背景成分,本文利用L1-2时空域总变分正则项对与目标具有同样稀疏性的强烈起伏边缘进行准确建模,抑制了背景杂波在目标图像中的残留,降低虚警率;同时,利用基于张量空间的加权Schatternp范数[23]解决奇异值估计时出现的“过度收缩”问题,提高张量的估计精度和效率。针对目标张量和噪声张量,分别采用l1范数和Frobenius 范数进行约束。然后利用交替方向乘子法(alternating direction method of multipliers,ADMM)[26]进行模型优化求解,得到目标张量。最后,将目标张量恢复为图像序列,利用自适应阈值分割方法得到最终的目标图像。
2 L1-2 时空域总变分正则项
2.1 时空域红外张量块模型
为了更加有效地利用红外图像序列中的时空域信息,本文采用文献[21]中的时空域红外张量块模型(STIPT)对数据进行张量化。给定一组红外图像序列f1,f2,···,fP∈Rm×n,设帧数步长为L,将输入的L帧连续图像序列按照时间顺序存储为张量的正面切片,由此即可得到一个张量F ∈Rm×n×L,其可以描述为以下加性模型:
式中, F ,B,T,N ∈Rm×n×LF,B,T,N 分别表示原始图像张量、背景张量、目标张量和噪声张量。经过实验验证,背景张量和目标张量在适当的L范围内具备低秩性和稀疏性。当算法将原始图像张量分解为目标张量和背景张量后,将目标张量按照正面顺序取出每一个正面切片即可恢复为目标图像。
2.2 L1-2总变分正则项
总变分正则项(total variation, TV)不仅可以抑制噪声,还可以衡量图像的平滑程度,保护图像边缘和角点,从而实现图像恢复和去模糊等,在图像处理领域有着广泛的应用。
对于二维图像,总变分正则项有两种定义,即基于l1范数的各项异性总变分正则项(anisotropic TV)和基于l2范数的各项同性总变分正则项(isotropic TV),定义如下:
式中,图像矩阵F∈Rm×n,Fij表示其第i行第j列元素,Dx和Dy分别代表沿水平方向和垂直方向的差分操作。
在图像恢复领域,主要利用各项异性总变分正则项来保护图像的边界和角点结构,因为l1范数是l0范数的最优凸近似解,但是它仅能有效逼近分片常数函数,从而出现虚假边缘,即“阶梯效应”,导致大量背景图像的纹理信息丢失,降低重构恢复精度。为了解决“阶梯效应”,文献[27]提出了L1-2范数,它满足Lipschitz 连续性,可以通过凸函数差别法(difference of convex algorithm, DCA)[28]实现最优化求解,利用线性化方法使目标函数凸化,故无需额外的平滑或正则化操作。L1-2范数定义如下:
式中 α ∈[0,1]是一个正则化参数。
本文结合L1-2范数和总变分正则项的优点,提出基于时空域红外张量块模型的L1-2时空域总变分正则项(L1-2STTV),更好地实现图像背景中边缘和角点结构的保留,提高重构恢复的精度。对于给定的红外序列图像张量 F ∈Rm×n×L,其L1-2STTV 定义如下:
式中Dz代表沿时域维度的差分操作,wx,wy,wz是非负的权重参数。
3 模型的建立与求解
本文所提的基于L1-2时空域总变分正则项的红外弱小目标检测算法流程主要包含4 个步骤:
步骤1 将输入的红外图像序列转化为时空域红外张量块加性模型,如式(1)所示;
步骤2 利用L1-2STTV 模型挖掘图像序列中的时域和空域关联信息,同时采用加权Schatternp范数和L1-2时空域总变分正则项对背景中的边缘和角点结构进行保护,对低秩背景张量和稀疏目标张量进行恢复重构;
步骤3 将得到的目标张量按序取出正面切片并恢复得到目标图像序列;
步骤4 对目标图像进行阈值分割得到最终的目标图像。
3.1 模型的建立
为了提高复杂背景干扰下的目标检测性能,克服具备稀疏性的边缘和角点引起的虚警问题,本文在式(1)中的STIPT 模型中对低秩背景张量采用L1-2STTV 进行约束,优化模型的目标函数定义如下:
式中, λ1,λ2,λ3>0 分 别表示L1-2STTV、目标张量以及噪声张量的权重, //T //1表示约束稀疏目标张量的l1范数, //N//F表示约束高斯噪声张量的Frobenius 范数,表示背景张量的加权Schattern p 范数,定义如下:
式中,L表示帧数步长, 0
式中,C为一个非负的参数,按经验值取值为5;δ为正的常数,避免分母为0。本文采用加权Schattern p 范数对低秩背景张量进行约束,一方面,可以有效解决低秩张量奇异值估计时的“过度收缩”问题;另一方面,可以利用张量奇异值分解在频域中共轭的特性,降低算法复杂度,提高效率。关于张量运算的定义和加权Schattern p 范数的详细定义可以参考文献[20],为了简洁,本文不作过多赘述。
3.2 模型的求解
目标函数(6)是一个联合正则化优化问题,为了降低求解优化的难度,首先引入辅助变量 Z,将式(6)改写为如下形式:
式(11)的优化问题是一个典型的加权Schattern p 范数优化问题,可采用加权Schattern p 范数张量阈值化方法(weighted Schattern p norm minimization-thresholding, WSNM-T)[20]进行求解,即:
L1-2STTV 模型的求解步骤如表1 所示。
表1 L1-2STTV 模型的求解Tab.1 The solution of L1-2 STTV model
4 实验结果与分析
为了验证所提算法的有效性,该节选取了6 组真实红外图像序列进行测试,并将所提算法与其他5 种算法进行性能对比,从定性和定量的角度验证所提算法的优越性。
4.1 评价指标
一般而言,评价目标检测性能最重要的两个指标为检测率(probability of detection,Pd)和虚警率(false-alarm rate,Fa),它们的定义如下[31-33]:
基于检测率和虚警率,定量评价指标还包含被测试者操作特征(receiver operation characteristic, ROC)曲线。ROC 曲线能够描述不同虚警率下检测率的变化趋势。
另外,用于红外弱小目标检测算法性能定量分析的指标还包括背景抑制因子(background suppression factor, BSF)、信杂比增益(signal-toclutter ratio gain, SCRG)以及对比度增益(contrast gain, CG),定义如下[20]:
式中,局部信噪比 LSNRG=PT/PB,PT和PB分别表示目标区域和邻域局部背景区域的像素最大灰度值; σin和 σout分别表示算法处理前后目标邻域背景区域的标准差;信杂比 SCR=|µt-µb|/σb,µt表示目标区域的灰度均值, µb和 σb分别为邻域背景区域的均值和标准差;对比度 CON= |µt-µb|。通常来说,式(34)中的3 个指标数值越大,表示算法的背景抑制能力越强,目标更显著。但是需要注意的是,上述指标只用于衡量算法对局部背景邻域的干扰抑制能力。
4.2 实验数据
为了验证本文算法的有效性,选取了包含强烈边缘和角点、高亮背景和噪声等干扰6 组红外图像序列进行实验。检测场景覆盖天空云层、地面、海面等背景,序列的代表帧图像,详细的目标特性和背景特性描述见表2,表中的最后一列数值表示的是序列目标的平均 SCR。
表2 实验数据特性Tab.2 The characteristic of the experimental data
4.3 参数设置
4.4 对比方法
本文选择了5 种算法与所提算法进行性能对比,包括最大中值滤波方法(Maxmedian)[11]、Tophat 滤波[12]、结合跨尺度融合与瓶颈注意力模块的轻量型红外小目标检测网络(LIRDNet)[18],基于密集瓶颈注意网络(DNA-Net)的检测方法[19]以及基于时空域信息和加权Schatternp范数的目标检测方法(WSNMSTIPT)[20],算法中的参数均参考原文献设置。
4.5 算法有效性验证
首先采用仿真图像数据验证了文中所提算法对不同典型场景的鲁棒性,主要包括单目标、多目标(目标数为3 个)和噪声3 种检测场景,生成多目标的方法参考文献[3],噪声场景中加入的噪声为 σ=20的高斯白噪声。检测结果如图1(彩图见期刊电子版)所示(为了方便观察,采用绿色的方框对目标区域进行标记)。由图中结果可知:在单目标场景和多目标场景中,所提算法均能够正确检测到所有目标;在噪声干扰的场景中,尽管目标信噪比很低,但是所提算法能够有效克服噪声的干扰,验证了它对噪声的鲁棒性。
图1 本文方法在不同典型场景下的检测结果Fig.1 The detection results of the proposed algorithm in different scenes
4.6 参数影响分析
为了有效利用时空域的关联信息,所提算法采用了时空域红外张量块模型。该节采用ROC 曲线对模型中关键参数—帧数步长L的取值导致的算法性能差异进行了定量分析。实验中将L分别设置为2、5、10、20、30 以及40 共6 个不同的值。对6 组序列进行检测,结果如图2(彩图见期刊电子版)所示。由结果可知,L≤5时,检测率相较于其他取值较低,适当地增大步长可以提高时域关联程度,提高检测率;对于L≥10的情况,由检测结果可知,L≥30时目标检测率达到1 的速度略低于L=20 的 速度,所以L的取值也不宜过大,否则会破坏背景张量的低秩性。总体而言,帧数步长可根据序列检测场景的背景变化情况进行调整,当背景变化趋于平缓时,可以适当增大L;当背景变化较快时,可取适当较小的L,以保证背景张量的低秩性。
图2 不同步长L 下6 组测试序列的ROC 曲线Fig.2 The ROC curves of different image sequences at different parameter L
4.7 对比实验
采用定性和定量方法将本文所提算法与其他5 种方法进行性能对比,以验证所提算法的优越性。
首先,利用不同算法对序列1 至6 进行目标检测,然后随机选取其中的一幅具有代表性图像进行结果展示,结果如图3(彩图见期刊电子版)所示(为了方便观察,采用绿色方框对目标区域进行标记,检测到的残留的背景杂波和噪声用红色圆圈进行标记)。
图3 不同检测方法的红外弱小目标检测结果Fig.3 The detection results of the representative frames in Sequence 1-6 by the six tested methods
由图3(a)可知,6 组红外序列图像中包含了天空和地面场景,每幅图像均包含大量的云层干扰或者地面高亮杂波干扰,同时目标淹没在复杂的噪声中,图像信杂比较低,检测难度较大。由图3(b)可知,Maxmedian 算法无法有效抑制背景中的噪声和杂波,极易引起虚警。由图3(c)可知,Tophat 算法在序列1 至6 中都残留了很多背景图像中的结构性干扰,在序列1、序列4 及序列6 中目标被完全淹没在杂波中,这是由于该算法的性能取决于滤波器窗口大小与背景结构是否适配,如不适配,则算法失效。由图3(d)LIRDNet 算法的检测结果可知,该方法相较于前两类空域滤波算法而言,残留的背景杂波和噪声要少很多,但是它在序列4 和序列6 中出现了漏检现象,目标完全丢失。由图3(e)中DNANet 算法的检测结果可知,该方法相在序列4 至序列6 均出现了漏检现象,目标丢失。上述两种基于深度学习的方法尽管有效减少了背景杂波在目标图像中的残留,但是在高亮杂波和噪声同时存在的低信杂比检测场景中,容易将真实目标误判为杂波进行抑制,从而导致漏检现象。由图3(f)可知,WSNMSTIPT 算法相较于前4 种方法,成功检测到了所有目标,但是它在序列4 至序列6 中仍然残留一些噪声点,容易导致虚警。由图3(g)可知,本文所提算法能够正确检测到所有目标,同时有效抑制了背景中的卷云层杂波、地面高亮杂波以及噪声。这是由于该方法可以充分利用时空域关联信息,同时相较于WSNMSTIPT 算法,本文算法采用了L1-2时空域总变分正则项对背景中的边缘和角点结构进行保护,从而在目标图像中较好实现了对背景残留的抑制。因此,由图3 的检测结果可知,本文所提算法取得了最好的目标检测结果和背景杂波抑制效果。
同时,为了更加直观地比较不同算法对背景杂波的抑制能力,选取检测难度较大的序列6 作为代表,将其检测结果的三维图进行对比分析,结果如图4 所示。由图中检测结果可知,本文所提算法相较其余5 种方法具有更好的背景杂波干扰抑制能力。这是由于L1-2时空域总变分正则项提高了低秩背景张量的重构精度,使得残留在目标图像中的背景杂波基本被完全抑制,目标局部邻域背景中的像素灰度值基本为零。
图4 序列六的三维图像对比示意图Fig.4 The 3D detection results of the representative frames in Sequence 6
接下来,采用4.1 小节中提到的评价指标对6 种算法的检测性能进行定量分析和对比。同样以图3(a)作为代表性图像进行指标计算,结果如表3、表4 所示,其中最大的数值采用粗体标出。由表3~4 结果可知,本文所提算法所有指标均表现最优,验证了所提算法的优越性。值得注意的是,对于基于低秩和稀疏重构的3 种方法,LSNRG、BSF 以及SCRG 的3 项指标会出现“Inf”的现象,这代表目标的局部背景邻域像素灰度被抑制为零,但是这并不代表它们全局最优;而“NaN”表示目标出现丢失。
表3 不同方法在序列1 至序列3 的评价指标Tab.3 Quantitative evaluation results of the tested methods for the representative images of sequences 1-3
表4 不同方法在序列4 至序列6 的评价指标Tab.4 Quantitative evaluation results of the tested methods for the representative images of sequences 4-6
进一步地,论文给出了不同方法6 组实验序列的ROC 曲线,如图5 所示。由图5 结果可知,本文所提算法的检测率均率先达到1,即在相同的检测率下,所提算法的虚警率最低。该方法的虚警率相较Maxmedian 算法、Tophat 算法、LIRDNet 算法、DNANet 算法以及WSNMSTIPT算法平均分别下降了71.4%、71.1%、68.5%、74.3%和20.47%。在序列1 至序列4 中,WSNMSTIPT算法表现仅次于本文所提算法,表现次优,但是在包含高亮杂波的地面场景(序列5 至6)中,该算法检测性能有所下降。这是由于该算法在虚警率较高的情况下能有效抑制同样具有稀疏性的背景边缘和角点信息。基于空域滤波的Tophat 和Maxmedian 算法残留的背景杂波干扰和噪声很多,目标完全被淹没在杂波之中,仅依靠阈值分割无法得到正确的目标位置,极易造成高虚警率。尽管LIRDNet 算法和DNANet 算法相较于上述两类空域滤波算法具有更好的杂波干扰抑制能力,但是它们在低信杂比场景中均出现了目标丢失的情况,目标检测性能和鲁棒性有待进一步提高。
图5 序列1-6 的ROC 曲线对比图Fig.5 ROC curves of the detection results of Sequences 1-6
综合上述定性和定量实验结果分析可知,本文所提算法的检测性能和鲁棒性均表现最优。
4.8 算法运行时间对比
该节对比了6 种算法对6 组实验序列的处理时间,结果如表5 所示(为方便观察,用时最短的用加粗黑体标出,用时次优的用下划线标出)。由表5 结果可知,所提算法耗时为Maxmedian 算法、DNANet 算法以及WSNMSTIPT 算法的42.4%、82.9%和28.7%。6 种方法中Tophat 算法处理时间最短,但是它的目标检测能力和背景抑制能力与其余方法有较大的差距。LIRDNet 算法的处理时间在序列1 至序列6 中表现次优,但是该方法在序列3 和序列6 中都出现了漏检。本文所提算法效率仅次于Tophat 和LIRDNet 算法,但是该方法的检测性能表现最优,尤其是在检测难度较大的序列5 至序列6 中,而相较于同类基于低秩和稀疏重构的方法(WSNMSTIPT 算法)处理效率均提高了3 至4 倍。分析可知,一方面,这是由于该方法利用了张量奇异值分解在频域中的重要性质降低了分解的次数;另一方面,是由于该算法采用的L1-2时空域总变分正则项可以快速使目标函数达到收敛条件,完成目标和背景的重构。因此,综合考虑目标检测性能和处理效率,本文算法表现最优。
表5 算法运行时间比较Tab.5 Runtime comparison of different algorithms (s)
5 结 论
本文针对复杂背景干扰下的目标检测问题,提出了一种基于L1-2时空域总变分正则项的红外弱小目标检测算法。该方法通过将红外图像序列转换为时空域红外张量块模型,利用高维张量空间数据分析的优势有效利用序列图像帧间的时空域关联信息,然后针对背景中的稀疏边缘和角点难抑制的问题,提出了L1-2时空域总变分正则项对上述成分进行精确重构,有效抑制了背景杂波在目标图像中的残留,降低了虚警率。然后,利用基于ADMM 方法和张量主成分分析方法将低秩背景和稀疏目标分离。最后,利用阈值方法得到目标图像,大大提高了算法检测效率。通过与5 种检测算法进行对比实验,所提方法的虚警率相 较Maxmeidan 算 法、Tophat 算 法、LIRDNet算法、DNANet 算法以及WSNMSTIPT 算法分别下降了71.4%、71.1%、68.5%、74.3%和20.47%。而在检测实时性方面,该算法耗时为Maxmeidan算法、DNANet 算法以及WSNMSTIPT 算法的42.4%、82.9%和28.7%。综上所述,该算法相较于现有方法在目标检测性能、背景杂波抑制能力和运行效率方面均表现更优,具有较强的工程应用价值。
猜你喜欢
杂志排行
中国光学的其它文章
- 基于残差网络的结直肠内窥镜图像超分辨率重建方法
- Double-slot ultra-compact polarization beam splitter based on asymmetric hybrid plasmonic structure
- Decoherence of temporal quantum correlation in electrically controllable quantum-dots molecules
- The Poynting vectors, spin and orbital angular momentums of uniformly polarized cosh-Pearcey-Gauss beams in the far zone
- 单波长激光通信终端的隔离度
- 氨气高精度激光光谱检测装置的设计及实现