视频SAR成像与动目标阴影检测技术

2020-05-18丁金闪

雷达学报 2020年2期

丁金闪

(西安电子科技大学雷达信号处理重点实验室西安 710071)

1 引言

视频合成孔径雷达(Synthetic Aperture Radar,SAR)连续记录目标区域的变化，并通过信号处理将信息在时间维度上以有利于人眼直观解读的视觉活动图像方式呈现出来，可实时获取车辆和船只等高价值目标的地理位置、移动方向、移动路线和速度等重要信息，并进行持续性跟踪监视。视频SAR作为一种新的雷达成像模式成为近年的研究热点[1,2]。

美国最早于1999年提出视频SAR概念，以类似光电传感器的方式再现场景信息并实现对地面目标的感知[1]。2010年美国桑迪亚实验室首次在Ku波段完成对视频SAR的技术验证。综合考虑成像分辨率、帧率指标及大气衰减特性，视频SAR系统一般设计工作于毫米波直至太赫兹低频段，系统体积小，有利于载荷灵活配置。美国国防高级研究计划局(DARPA)将视频SAR工作频率设计在230 GHz附近，并在2016年将其集成在多光谱瞄准系统中，实现了在235 GHz频段的视频成像[3]。德国高频物理与雷达技术研究所(Fraunhofer-FHR)在W波段成功实现了对城区的视频成像试验[4]。2020年芬兰ICEYE公司发布了雷达卫星通过凝视成像模式获得的SAR视频[5]，实现对港口和城市等高价值区域动态成像监测。国内各相关单位也相继对视频SAR系统和关键技术开展了研究并取得很好进展。

由于视频SAR主要任务是监视和跟踪场景内的动目标或动态变化，要求高的成像帧率，而平台运动速度受制于诸多因素只能在合理的范围内选择，因此在保证雷达作用距离以及方位分辨率的前提下提高帧率的较好途径是提高雷达载频。德国宇航中心 (DLR)开发的视频SAR系统工作在94 GHz[4]，而雷声公司研制的视频SAR系统[3]工作在235 GHz。考虑到雷达探测威力和电磁波大气衰减因素，机载视频SAR系统也可工作在Ku或Ka频段，这时往往以重叠子孔径成像处理技术来达到图像帧率，即“伪帧”。不重叠孔径处理得到的成像帧率和通过重叠孔径处理得到的帧率，即所谓的“真帧”和“伪帧”，并不是评估视频SAR系统优劣的唯一技术指标，即“真帧”肯定优于“伪帧”。帧率指标应根据任务场景目标运动特性来决定，即动目标慢时间采样率要求。当然，设计高的帧率指标可保证系统可用于更广泛场合，但也造成系统资源冗余。桑迪亚实验室在2016年公开的视频证明了用Ku波段SAR系统同样可实现车辆目标的监视和跟踪[6,7]，该系统实际帧率小于1 Hz，通过重叠孔径成像处理所得到的图像刷新率约为3 Hz。本文主要针对机载K波段研究视频SAR技术。

视频SAR不仅仅是SAR，其本质是一种高帧率成像方式下动目标和变化检测技术。动目标探测技术是视频SAR的关键技术，阴影作为视频SAR重要特征，能够反映运动目标真实位置及状态信息，因此有必要分析阴影形成机理并研究相应的阴影检测算法。

本文对视频SAR成像处理算法进行了探讨，研究视频SAR动目标阴影检测问题，除采用经典图像处理方法外，利用机器学习技术在视频SAR阴影检测方面取得了显著效果，实现了对动目标阴影的检测、预测及虚警和漏警抑制。

2 视频SAR成像处理

由于视频SAR系统载频较高，使得其成像处理对平台定位误差特别敏感，对运动补偿提出挑战，而基于回波数据的自聚焦技术往往不可或缺。总体来讲，视频SAR高帧率成像处理需要从算法软件和硬件技术两方面同时优化，成像算法要较好兼容运动补偿，时域反投影类算法成为好的选择。另一方面成像处理机性能及惯导等实时位置姿态感知器件需要保证足够的精度。

文献[8]分析了机载平台振动对220 GHz视频SAR成像的影响，并指出通过平台隔振技术与自聚焦算法可有效降低影响。文献[9]提出了一种针对直升机载视频SAR的振动补偿方法。文献[10]针对视频SAR的特性提出了一种能够适应图像旋转的相位梯度自聚焦(Phase Gradient Autofocus,PGA)算法。此外，高帧率成像对系统实时处理能力是巨大挑战，因此提高成像及自聚焦算法的计算也是关键。

视频SAR系统适合于监测有限区域内的目标，往往工作在聚束模式，此时雷达载体平台运动轨迹多为曲线。极坐标格式算法(Polar Format Algorithm,PFA)作为一种常见聚束SAR 算法，能够兼顾成像效率和精度，适合视频SAR成像处理。对于能够满足“真帧”处理条件的系统，可将雷达回波数据在慢时间域按照图1(a)的方式排列分组。每一组为一个相干处理单元，对相干处理单元内的数据使用PFA算法成像即得到一帧图像。若雷达系统仅能以“伪帧”的方式实现期望的高帧率成像，则数据排列分组需采取图1(b)的方式。此时相邻帧部分数据是复用的，每帧相干处理时间长度均大于所生成视频序列中每帧对应的时长。而每个相干处理单元内的数据依然可以使用PFA算法成像聚焦。由于无论“真帧”还是“伪帧”处理，成像算法的核心均是PFA，所以近年来国内外学者针对PFA算法的计算效率进行了改进[11,12]。

图1 视频SAR成像处理中孔径划分示意图Fig.1 Schematic diagram of aperture segment

虽然工作于较低载频的视频SAR系统可通过重叠孔径处理技术来达到期望的图像刷新率，但若使用PFA算法来生成图像序列，孔径重叠部分的大量数据重复参与成像计算，增加了计算负荷。一种直接解决方法是将回波在慢时间划分为不重叠的子孔径如图1(b)所示，对子孔径以不同的加权方式分别成像，最后选取不同的子孔径图像进行融合得到每帧图像[13]。若使用以PFA算法为代表的频域算法对子孔径回波成像，则每幅子孔径图像都位于各自的坐标系下，融合前需要图像配准操作从而降低了成像效率及精度。而使用快速后向投影算法(Fast BackProjection,FBP)等时域算法对子孔径成像则所有图像均位于同一坐标系下，能够避免融合前的配准。

相比于非重叠子孔径图像融合的方式，迭代后向投影(Auto-Regressive Back Projection,ARBP)算法[14]更巧妙地解决了这个问题，该算法将图像的迭代更新融合进了后向投影的过程中，每次后向投影仅使用最新得到的回波数据对图像进行更新，并通过迭代更新将以往的信息遗忘。其后向投影过程与传统的BP算法一致，均通过计算雷达到图像像素坐标点的斜距并对每个脉冲的回波进行插值以寻找对应像素点的幅相信息。不同于传统BP算法，ARBP将所有数据投影在一幅图像中并通过类似于IIR滤波器的方式提取出只和当前帧有关的信息。ARBP算法图像迭代更新的公式为

式中，Ik为第k次迭代更新得到的图像，M为迭代的阶数，αm为迭代系数，Rk为第k个脉冲回波在图像域的后向投影值。此时，图像聚焦点扩展函数在方位向的形状即为式(1)所表示的IIR滤波器的冲激响应。通过经典的IIR滤波器设计手段从而合理的选择迭代的阶数和系数，能够等效实现非迭代处理算法中的方位加窗效果。ARBP算法保留了传统后向投影算法的优势，每次后向投影可根据实时位置传感器所提供的信息来补偿瞬时斜距，适用于任意飞行轨迹。并且，整幅图像迭代更新可分解为多个子图像或像素点的并行迭代更新，可使用GPU并行加速计算技术来满足实时成像需求。

本文对ARBP算法进行了成像仿真，采用正侧视条带模式成像，仿真参数如表1所示。使用去斜方式仿真回波数据，表示为

其中M×N为波束覆盖范围内仿真图像横向和纵向的像素点数，相邻像素点的间距设为0.2 m,t是快时间，τ是慢时间，Ri是时τ刻第i个像素点到雷达的距离。

表1 仿真参数Tab.1 Simulation parameters

为最大程度地抑制方位向旁瓣，本文使用了文献[14]中给出的经验公式设计一个3阶迭代函数用于方位聚焦处理，使用该函数等效于非迭代处理中的方位向加汉明窗的处理效果。成像场景大小为500 m2，场景内存在两个运动目标分别位于坐标(1160,600)和(1160,380)处，运动方向分别为垂直方向和水平方向，从第2～4 s做匀加速运动，加速度为0.01 m/s2。第10帧和局部放大图如图2所示，此时目标处于静止状态，该帧图像对两个目标实现聚焦。

第20帧及局部放大图如图3所示，此时目标运动速度为0.01 m/s，该帧图像中目标发生了轻微散焦，但主要能量未发生偏移。

第30帧及局部放大图如图4所示，此时目标速度为0.02 m/s，在该帧图像中目标能量发生偏移，可观察到目标留下的阴影。

3 视频SAR动目标阴影检测技术

3.1 阴影形成机理与检测性能

传统SAR中动目标也可能留下阴影，但因为雷达图像一般有大量弱后向散射区域和物体遮挡，此时通过阴影检测来发现动目标的效果很差，而高帧率成像提供了动目标阴影的连续动态信息，使该方法成为可能。

在视频SAR中，极高的工作频率使运动目标回波的多普勒调制对目标运动极为敏感，很小的运动也会导致目标像发生很大偏移和散焦，从而在图像序列中留下能够反映真实位置及状态信息的阴影。一方面，动目标产生的阴影与其背景区域的对比度及阴影强度沿运动方向的梯度信息与目标速度有密切关系。另一方面，由于单帧图像的合成孔径时间较短，动态阴影亦反映了运动目标在场景中的瞬时位置。利用视频SAR中的动态阴影进行动目标检测是SAR运动目标检测的新途径。该技术与传统基于多普勒处理的技术联合应用，可较大程度扩展动目标可检测速度范围并提高稳健性。

图2 第10帧SAR图像及其局部放大图Fig.2 Image of frame 10 and its zoom-in

图3 第20帧SAR图像及其局部放大图Fig.3 Image of frame 20 and its zoom-in

视频SAR中的动目标阴影产生受到多种因素的影响。一方面，阴影的检测基于一定背景杂波和噪声条件下，如果背景杂波较弱或阴影区域噪声较强，则很难从背景杂波区域提取出阴影。需要指出，如果目标的雷达散射截面(Radar Cross Section,RCS)弱于噪声等效后向散射系数时，动目标难以产生阴影。因此，视频SAR系统一般要求较高的系统灵敏度。另一方面，当运动目标速度较慢时目标像可能被有效积累起来，因而不能形成阴影，又或者当运动目标速度过快时，目标可能迅速驶过一片区域，导致大部分地物杂波被相干积累，导致产生的阴影不够明显，这些情况均会导致最终检测失效。此外，运动目标的像也可能发生散焦和混叠并使弥散的能量覆盖在阴影区域从而影响检测性能。

图5 运动目标阴影产生模型俯视图Fig.5 Top view geometry for the shadow formation of a moving target

在SAR图像中，弱散射的静止区域目标以及物体的高度遮挡会在相应位置产生阴影，在这里本文关注的是由运动目标产生的阴影[15,16]。运动目标的阴影产生原理的俯视图如图5所示，其中平台速度为v，单帧图像的相干积累时间为Ta，运动目标尺寸为W×Lm并用蓝色矩形代替，目标速度为vt。由于高频段雷达发射机的有限功率限制，视频SAR往往工作于大擦地角条件以缓解有限作用距离问题，因此运动目标在图像中的阴影基本保持其俯视轮廓。在这里，本文对阴影的分析基于目标像发生偏移和散焦，且不对阴影区域产生影响的假设。在单帧视频 SAR 图像积累时间Ta的始末时刻平台和运动目标分别如状态①,②所示(实际中单帧积累时间内平台仅跨越很小的角度)，假设目标在积累时间Ta内以匀速vt沿某方向运动，在此期间内目标位移长度为Tavt，因此在积累时间内运动目标将在原本位置留下长度为Lm+Tavt的阴影区域。

为对阴影区域的点散布函数(Point Spread Function,PSF)进行求解，我们首先对动目标对地物的遮挡建模如图6所示，其中横轴l表示目标运动轨迹方向，纵轴t表示时间。绿色区域表示了在某位置处地物被运动目标遮挡的时空范围，沿t轴绿色区域的长度表示了该处的遮挡时间长度。根据的运动速度大小可分为两种情况，当目标速度vt >Lm/Ta时，遮挡时间在遮挡区域两端附近呈线性变化，中间区域遮挡时间T∆=Lm/vt。当vt

图6 动目标遮挡模型Fig.6 Illustrations of occlusion time caused by a moving target

图7(a)给出了不同运动速度(5 m/s,10 m/s,20 m/s,30 m/s,40 m/s)的目标在均匀背景下产生的阴影，其中单帧图像的合成孔径时间为0.2 s，目标像因其径向速度而偏移出场景。图7(b)为各目标阴影沿运动方向的归一化图像强度，由图7可见慢速目标的阴影更为明显，在阴影的两侧图像强度线性变化。

运动目标的遮挡导致地面散射点在合成孔径时间内产生了相干积累损失，从而形成了较周围区域图像强度较弱的阴影。当运动目标像偏移出其真实位置时，遮挡区域内部的某一点目标的方位向回波可表示为

其中，Ka为该处静止目标的多普勒调频率，T∆的范围为[ta,tb]且。该回波经过方位匹配滤波器

回波的匹配结果(即点散布函数)可表示为

其中，⊗为卷积操作，f0=Kat0。类似地，未被动目标遮盖的完整回波的匹配结果为

本文定义方位向积累损失因子ILF为

表示该散射点相对于未被遮挡区域散射点的响应峰值的比值。图8给出了遮挡时间分别占相干积累时间0%,20%,40%,60%的归一化脉冲响应结果，由图8可见峰值强度随遮挡时间的增大线性减小，并伴随有主瓣展宽。

SAR图像中主要包括加性噪声和乘性噪声影响，加性噪声主要为接收机的热噪声，而乘性噪声主要取决于积分旁瓣水平以及场景的平均散射强度，因此噪声之和可用等效后向散射系数(EBC)表示为[17,18]

图7 视频SAR动目标阴影仿真结果Fig.7 Simulation of moving target shadows in video SAR image

相同地，若运动目标阴影区域的EBC可用σsh表示，由对脉冲响应的分析可得，目标的遮挡改变了该处散射的EBC，此时阴影区域的总EBC可以表示为

图8 阴影区域点目标归一化脉冲响应Fig.8 Normalized impulse response of a ground point scatterer

其中ILF由式(8)给出。定义阴影背景比为

SHBR表示了动目标阴影区域与其所在背景区域在统计意义上的强度对比值，区别于传统的高电平目标检测，视频SAR的阴影检测是在强杂波背景下检测低电平目标，因此阴影作为待检测目标，SHBR越低越有利于动目标阴影的检测。本文以动目标轨迹的中心位置为例进行仿真实验，假定σn=−48.7 dB,MNR=−18.2 dB，动目标的长度为Lm=5 m。图9(a)描述了SHBR随背景散射强度和运动目标速度的变化关系，图9(b)描述了σb==−16.5 dB(均匀干燥土地，94 GHz)条件下SHBR随目标运动速度和合成孔径时间的变化关系，其中标记给出了当前情况下的最优SHBR，此时该位置在合成孔径时间内被全时遮挡，该值决定了动目标阴影的检测性能上限。结果表明，强的背景散射，短的积累时间和低速目标产生更有利于检测的阴影。

图9 SHBR变化特性曲线Fig.9 SHBR curves

基于相干斑的产生原理，SAR图像强度服从参数为散射体EBC的负指数分布[19]，则对于背景区域和阴影区域分别有I ∼Exp(1/σB)和I ∼Exp(1/σSH)。基于动目标阴影的动目标检测是从高电平的背景区域检测低电平，因此给定一个检测门限，虚警率PFA和检测概率PD可分别表示为

其中，fIB(x),fISH(x)分别表示背景区域和阴影区域的负指数概率密度函数。结合式(13)和式(14)，可得阴影的检测性能曲线为

图10 阴影检测性能曲线Fig.10 Detection performance curve of shadow detection

假设σn=−48.7 dB,MNR=−18.2 dB，且目标长度Lm=5 m，图10给出了阴影的检测性能曲线。图10(a)描述了检测概率Pd在不同虚警概率条件下随SHBR的变化结果。图10(b)描述了不同目标速度下阴影中心区域的观测者操作特性曲线(Receiver Operating Characteristic curve,ROC)，其中目标速度为5,10,20 m/s对应的ROC曲线重合，这是因为当速度较慢时阴影中心区域在合成孔径时间内总是被目标遮盖的，因此形成了更易于检测的低电平区域，当速度继续增加时，中心区域的遮盖时间为Lm/vt，因此目标速度越大检测性能越差。

上述分析针对阴影中心区域的点散射体展开，对于连通阴影区域的检测，往往需要可靠的SHBR，以达到对运动目标的有效检测。假定在满足一定虚警概率和检测概率的条件下，存在SHBR0使得在视频SAR图像中可以完成可靠的阴影检测(文献[20]中指出分布式目标的可靠检测对比度参考值可取-1.5 dB)，即

对于给定距离横向分辨率ρ，则该条件下的动目标可检测速度范围为

其中，c表示光速，v表示雷达速度，f表示雷达工作频率，R表示雷达作用距离。

阈值分割作为一种常见的图像目标提取手段，基于此，我们讨论了的运动目标阴影在视频SAR中单帧图像检测性能，其主要目的是为说明并导出动目标阴影检测对环境、系统参数及目标速度的依赖性。当对序列图像进行联合处理时能够有效提高目标的检测性能，为此本文也将通过不同方法将帧间信息进行联合，以达到提高运动目标检测性能的目的。

图11 基于背景差分的阴影检测流程图Fig.11 Flowchart of shadow detection based on background difference

3.2 基于背景差分的阴影检测技术

文献[21-23]中利用视频SAR图像序列进行处理并可有效检测出动目标阴影。文献[24]利用阴影辅助信息来提高SAR-GMTI的系统性能。本文结合上述对动目标阴影的分析，给出了基于背景提取差分动目标阴影检测方法和桑迪亚实验室实际数据处理结果。

背景差分处理主要面临帧间配准精度与处理时间矛盾问题和背景提取准确度问题。图11给出了基于背景差分的阴影检测流程图。桑迪亚实验室实测数据由Ku波段雷达录取，视频包含295帧图像，本文对其中连续的90帧进行检测，共包含730个真实动目标阴影。

该方法的基本思想是通过多帧SAR图像序列的联合，提取出干净的背景图像，再通过差分最终得到阴影检测结果。首先采用SIFT+RANSAC算法对多帧图像进行配准，之后采取中值滤波的方式[25]在保持分辨率的条件下减小相干斑噪声的影响，并对感兴趣电平区域进行线性增强，降噪增强后的结果如图12(a)所示。之后采用多帧均值的方法进行背景的提取，当场景内存在多目标(特别是呈队列运动)时，均值法将使背景提取不够准确，为此本文计算每个像素的变异系数(方差/均值)，并设置阈值对变异系数过大的像素进行电平补偿，图12(b)给出了经补偿后的背景。此后本文对背景已经配准后的图像序列进行阈值分割并进行差分处理，后续再进行形态学处理和连通域筛选，处理结果分别如图12(c),12(d)和12(e)所示。

图12 基于背景差分的阴影检测结果Fig.12 Results of shadow detection based on background difference

表2 基于背景差分的阴影检测性能统计Tab.2 Statistical results of shadow detection based on background difference

表2给出了基于背景差分的阴影检测性能统计。结果表明基于背景差分的阴影检测方法可有效提取视频SAR图像中的运动目标阴影。

3.3 机器学习动目标检测技术

传统的阴影检测技术通常使用经典图像处理算法，其中往往会包含一些预处理步骤，例如图像降噪、配准、背景分割与提取。SAR图像的低对比度与相干斑噪声给这些预处理步骤带来困难，恶化了传统阴影检测技术的性能。为了成像的高效性，聚束或者圆迹的视频SAR数据经常由PFA类算法聚焦，导致视频SAR图像是旋转的。同时，波数域插值误差使得相邻SAR图像之间存在像素起伏，特别是在远离成像中心的区域。图像的旋转可以由配准校正，但是无法充分补偿这种插值误差，因此SAR图像噪声增加，阻碍了经典方法的背景提取。此外，在连通域检测中，抑制虚警往往需要一个目标尺寸的先验门限，抑制具有与真实阴影目标像素尺寸相近的虚警是比较困难的，这些因素均会导致经典阴影检测技术的虚警概率增大。另一方面，慢速移动目标的阴影在相邻帧之间差异较小，导致无法准确提取阴影处的背景。在一些视频SAR图像中，动目标的阴影可能被它的像部分或者完全遮挡，这些均增加了对慢速目标检测的漏警概率。

本文讨论基于深度神经网络的视频SAR阴影目标检测技术，流程图如图13所示。

首先，利用基于区域卷积神经网络(Faster Region-based Convolutional Neural Network,Faster-RCNN)在每帧视频SAR图像上进行阴影检测。在初步的检测结果中包含大量的虚警目标与漏警目标，滑窗密度聚类算法被用于抑制虚警，并采用双向长短时记忆 (Bidirectional Long-Short-Term Memory,Bi-LSTM)网络对漏警目标位置进行预测。

3.3.1 基于Faster-RCNN的动目标阴影检测

RCNN作为一种特殊的CNN被广泛应用于图像目标检测领域，它使用选择性搜索算法确定候选区域，结合CNN与支持向量机对候选区域进行特征提取与识别，并对边界框进行回归修正[26]。RCNN开创性地在图像目标检测中引入深度神经网络。Faster-RCNN作为它的改进，将候选区域的产生、识别，边界框的回归统一到一个端到端的深度网络中，极大地提高了计算效率[27]。

特征提取可由常见的AlexNet,VGGNet和ZFNet模型实现。候选区域由区域建议网络确定，并且它的特征可由感兴趣区域池化层获得。

3.3.2 基于滑窗密度聚类的虚警抑制

图13 基于深度网络的视频SAR动目标检测流程图Fig.13 Flowchart of the moving target detection approach using deep neural network in video SAR

Faster-RCNN可以实现端到端的阴影检测，但是作为一种单帧检测方法，它的性能不够稳健，特别是直接应用于SAR图像[28]。SAR图像的分辨率通常较低，不能反映如光学图像中丰富的目标特征，因此很难区分动目标阴影与弱反射区域。动目标阴影的特征单一，灰度较低，一些常见的弱反射区域，例如，道路、河流、固定目标阴影等，很容易被误判为动目标阴影。同时，相干斑噪声使得平坦区域也产生一定的梯度变化，增加了动目标阴影检测的难度[29]。此外，由于动目标运动状态的变化，其阴影区域的形状与梯度是时变的[16]。这些因素均导致Faster-RCNN直接应用于SAR图像阴影检测时虚警率的增大。

动目标阴影的轨迹在视频SAR图像序列中具有较好连续性，在相邻帧之间有较强的相关性。如果在某一帧中检测到一个阴影目标，那么在其相邻帧的对应位置附近有较大的概率会检测到该目标。相反，虚警目标通常随机地产生于弱反射区域，在相邻帧之间位置的相关性较弱。因此，利用动目标阴影在序列图像中的运动相关性，可以采用聚类的方法抑制虚警。

在视频SAR序列图像中检测到的阴影目标轨迹可以是任意形状的，并且混合大量的虚警目标，利用一种密度聚类(Density-Based Spatial Clustering of Application with Noise,DBSCAN)算法可以实现任意形状样本点的聚类[30]。DBSCAN算法通过设定的聚类半径和邻域密度阈值，利用样本点分布的相关性无监督地对样本点进行聚类，同时起到剔除异常点的作用。但是，DBSCAN算法将所有样本点作为输入，并且以距离作为聚类依据，因此无法对轨迹交叉的两类样本点进行聚类。本文提出一种改进的密度聚类方法。

在利用Faster-RCNN算法完成单帧检测后，可得到每帧图像中所有检测到的目标位置q(x,y),x∈[1,M],y∈[1,N]，其中，M和N是SAR图像的像素尺寸。完成所有帧的检测后，将图像序列中的阴影目标轨迹p(x,y,z),z∈[1,T]作为聚类的样本集，其中，T是总帧数。在距离-方位-时间三维数据空间中，设聚类窗长度为L帧，步长S为帧(S

对于一个聚类窗中的所有聚类结果，需要遍历每一类并判断其与之前窗聚类结果的关系。这样，随着聚类窗的滑动，具有较强相关性的动目标阴影检测点被逐渐关联，而虚警目标往往被分类为异常点。通过这种改进密度聚类处理，可以实现对虚警目标的有效抑制。

3.3.3 基于Bi-LSTM网络的目标预测

如果运动目标的速度变化较剧烈，其多普勒频移超过雷达系统的最大不模糊多普勒频率，那么目标像将呈现出周期性的混叠。在某些视频SAR图像中，动目标阴影可能被其混叠的目标像部分或者全部遮挡，导致出现漏警。同时，由于目标运动状态及雷达视角的变化，阴影区域的形状及灰度是时变的，增大了产生漏警的概率。

本文采用一种联合多帧的预测模型来降低漏警，结合检测结果信息实现对漏警目标位置的预测。循环神经网络(RNN)是一种适用于处理时序问题的记忆型神经网络。Bi-LSTM网络是一类特殊的RNN，其克服了传统RNN不能解决长距离依赖的问题[31]。本文利用Bi-LSTM网络实现对漏警目标的预测，其网络结构如图14所示，包含输入层，一个双向循环层(前、后向传播链)以及两个全连接层。

虚警抑制后的动目标阴影坐标序列被用于作为Bi-LSTM网络的输入。假设该网络用于预测第m帧中的漏警目标，那么输入向量由前窗l中的K个向量(Xl,Yl,∆Fl)、后窗r中的K个向量(Xr,Yr,∆Fr)以及缺失向量(0,0,0)组成。前后窗中的 2K个向量可以表示为

图14 用于漏警目标预测的Bi-LSTM网络结构Fig.14 Structure of the designed Bi-LSTM for suppressing the missing alarm

其中，i=1,2,···,K,(xαi,yαi)是第αi帧中动目标阴影的坐标并且αi∈[m −ϖ,m −1],βi∈[m+1,m+ϖ]。表示距离预测帧的最大帧间距，∆fαi表示第αi帧与第m帧的帧间距。此外，帧间距满足关系为

所设计的Bi-LSTM网络仅包含一个双向循环层，其由2K+1个单元组成。每个单元包含128个神经元，分别用于构成前向和后向传播链。对应于第m帧的第K+1个单元的输出经过两个堆叠的全连接层后产生预测坐标，实现了对第m帧中缺失目标的预测。

在网络训练过程中，本文采用该欧式距离的平方构建损失函数，即由预测坐标与真实坐标的欧式距离的平方表示

3.3.4 基于视频SAR实测数据的检测结果

利用Sandia实验室公布的实测视频SAR数据可以验证所提的基于深度神经网络的阴影辅助视频SAR动目标检测方法。由于共提取到300帧SAR图像，因此将210帧作为训练集的原始图像，其余连续90帧图像作为测试集。利用常用的数据增强方式如旋转、平移等可以有效扩充训练集。每个原始图像分别被中心旋转 0◦,45◦,90◦,135◦,180◦,225◦,270◦以及315◦，随后每个旋转后的图像被随机裁剪多次，再次扩充数据集以确保阴影目标位于图像中的不同位置。通过这种方式总共可以获得35400张图像用于训练Faster-RCNN网络。此外，提取原始图像上每个阴影目标的坐标序列，采用平移与旋转的方式扩充后作为Bi-LSTM网络的训练集。得到训练好的模型后，在90帧测试视频SAR图像上的初步检测结果如图15所示。

图15 基于Faster-RCNN的初步检测结果Fig.15 Preliminary detection results simply by using Faster-RCNN

首先利用Faster-RCNN在单帧图像上完成初步检测，图15(a)—图15(d)分别给出了第9,20,45,75帧的初步检测检测结果。从图中可以看出，由于动目标阴影的特征简单、与SAR图像中低灰度区域特征相似，严重恶化了检测性能，初步检测结果中包含大量的虚警与漏警目标。正确检测的阴影目标为红色矩形框，虚警为青色矩形框，漏警发生在白色圆形区域。此外，也给出了阴影区域的分类得分，真实阴影目标通常具有较高的分类得分，这表明Faster-RCNN能够以较高的置信度检测动目标阴影。但是，由于特征恶化，某些真实阴影的得分较低，相反，一些虚警由于其特征与真实阴影相似，也具有较高的分类得分。

利用动目标阴影在序列视频SAR图像中的运动相关性，采用滑窗密度聚类方法来抑制虚警。随着滑窗进行，动目标阴影坐标被逐渐关联，虚警最终被分类为一些孤立的异常点。保留包含真实动目标阴影的类，其他类作为虚警目标剔除。通过这种改进的密度聚类方法，可以实现具有交叉轨迹的坐标点分类，并实现对弱相关虚警的抑制。

图16 基于深度神经网络的动目标最终检测结果Fig.16 Detection results of moving targets by using the DNN-based approach

基于深度神经网络的视频SAR阴影辅助的动目标最终检测结果如图16所示。图16(a)—图16(d)分别为第9,20,45,75帧，正确检测的阴影目标为红色矩形框，预测目标为白色矩形框，虚警为青色矩形框。对比图15可以看出，利用改进的滑窗密度聚类算法以及Bi-LSTM网络提高了检测性能，降低了虚警率与漏警率。但是在图16(d)中，由于虚警与上一帧真实阴影的距离小于聚类半径，该虚警未能抑制。为了更好的分析该方法的检测性能，表3中统计了在全部90帧测试数据上的虚警数与漏警数。同时，给出了每一步的具体结果，可以看出每个步骤对检测性能的提高程度。在90帧中共有730个真实动目标阴影，初步检测结果中包含73个虚警与123个漏警。经过后续两步处理后，最终检测结果中只有9个虚警与7个漏警。

表3 基于实测视频SAR数据的检测性能对比(目标总数：730)Tab.3 Comparisons of detection performance on the real video sar data (Target number:730)

4 总结与展望

本文对视频SAR成像处理算法进行了探讨，对视频SAR中动目标阴影形成机理及检测性能进行了定量分析，将机器学习技术应用于视频SAR阴影检测并取得了显著效果，实现了对动目标阴影的检测、预测及虚警漏警抑制，并在实测数据上与经典处理方法进行对比验证。

本文分析了动目标阴影产生及制约条件，过慢或过快的动目标均难以形成可靠阴影，工程应用可考虑阴影检测和传统多普勒检测的联合技术，以实现与目标速度无关的雷达动目标检测能力。尽管基于有监督深度学习方法的阴影检测算法相对经典图像处理算法计算量小，性能优异，但算法泛化能力明显不足，这也是深度学习类算法应用到雷达领域面临的普遍性问题，亟待研究突破。为实现视频SAR实时信号处理，需研究高效率信号处理软硬件技术，并将其工程化。

展开全文▼