APP下载

基于GAN的SAR数据扩充研究综述

2021-12-03黄琼男朱卫纲李永刚

兵器装备工程学报 2021年11期
关键词:分辨率样本图像

黄琼男,朱卫纲,李永刚

(1.电子信息系统复杂电磁环境效应国家重点实验室, 河南 洛阳 471032; 2.航天工程大学 研究生院, 北京 101416; 3.航天工程大学 电子与光学工程系, 北京 101416)

1 引言

合成孔径雷达(synthetic aperture radar,SAR)具有全天时工作、全天候成像、作用距离远、穿透能力强等特点,在可见度极低的气象条件下仍能获得高分辨率二维图像,且SAR图像能够获取不同波段下目标的散射特性[1],极大地提高了所获取信息的丰富度,其在军事、民用等领域具有重大的意义。随着深度学习技术的发展,尤其是卷积神经网络凭借其强大的特征自学能力迅速在SAR目标检测领域占主导地位,R-CNN系列[2-4]、YOLO系列[5-7]、SSD[8]等具有端到端模式的算法相继提出,有力地促进了SAR图像目标解译技术的发展。现阶段,影响检测性能的关键因素主要有算法和数据两大方面,一部分学者专注于检测算法的改进和开拓,一部分学者致力于数据的研究。数据作为推动深度学习技术发展的“原油”,MSTAR、SSDD、HRSID、LS-SSDD等数据集[10-14]的出现为SAR目标检测积累了大量的数据,然而,由于各国对非合作目标采用相应的反侦察技术,导致采集此类目标样本有限,这就需要对特定的样本数据进行扩充。目前,数据扩充的手段多种多样,旋转、平移等数据增强的扩充方法并未从根本上改变图像内部的信息,计算机建模仿真的方法精确度较低,也缺乏可操作性。因此,合理的对SAR数据扩充势在必行,近年来利用深度生成模型生成虚假数据成为研究的热点,尤其是生成对抗网络(generative adversarial networks,GAN)[15]提出以来,AI一键换脸、AI图像修复等各种应用层出不穷,随后发展的GAN衍生模型也被应用于各个领域。GAN模型在SAR图像目标生成和超分辨率重建方面已有所应用[16],证实了其在SAR图像扩充领域的潜力,利用GAN模型生成SAR图像的方法能够在最大程度上还原SAR图像细节,且易实现,为SAR图像数据扩充增添一条重要途径。

2 基于传统方法的SAR数据扩充

目前,数据缺乏仍然是阻碍深度学习技术发展的重要原因之一,且完备的数据集应具有大规模性、多样性,多样性不仅仅指从不同角度分类的实测数据(例如,简单背景下的SAR数据和复杂背景下的SAR数据、小尺寸像素SAR舰船目标和大尺寸像素SAR舰船目标等),还应包含有以现有的技术手段获得的高质量的仿真数据。在早期阶段,获得SAR图像数据的方法分为两种,一种是数据增强(旋转、平移、镜像、仿射变换等)方法,另一种是基于计算机建模的SAR图像生成。

数据增强手段在光学领域较为常见,由于星载SAR分辨率较低,相比于光学图像,图像中所包含的信息较少。另一方面数据增强手段只是在图像的几何层面进行了形状的改变,并未从SAR图像的成像机理角度考虑,较为常见的是,SAR图像检测领域常把数据增强方法作为数据预处理手段,通过合理的数据增强策略,有效地抑制模型的过拟合,增强泛化能力和鲁棒性。

基于计算机建模的SAR图像仿真是指利用模型设计软件对目标的几何外形进行精确建模,再将建立好的模型导入仿真软件获得仿真数据,最后利用收集的仿真数据进行成像,得到与真实图像相似的雷达图像。这种仿真方法特别依赖于计算机绘图软件的精度,所得到的SAR图像局限性较为明显:SAR场景中的目标种类繁多,且场景较大,为所有场景中的目标都建立精确的计算机辅助绘图模型是一个耗时耗力的过程。对于很多实际场景下的非合作目标,建立精准的几何模型异常困难。若目标生锈或涂层从而引起表面发生变化,与之对应的电磁特性也会发生改变,在几何建模中很难准确还原,而且基于计算机建模的仿真方法只适用于尺寸较大的目标,对于小目标建模,其精确性较低。所以,以此种仿真方法构建SAR图像数据集所付出代价较大,且所构建数据集缺乏多样性。

3 基于深度生成模型的SAR数据扩充

在数据扩充方面,深度生成模型相比于传统的扩充方法有着不可比拟的优越性,基于深度生成模型的数据仿真是利用某种概率密度分布的数据来拟合所需样本数据分布的生成过程,深度生成模型不需要显式的特征提取,能够学习到很好的隐表示,模型性能更好。常见的深度生成模型有受限玻尔兹曼机(restricted boltzmann machines,RBM)[17]、变分自编码器(variational auto-encoder,VAE)[18]、生成对抗网络[15]等。VAE模型和GAN模型的目的相同,均是进行分布之间的变换,但生成的图像效果明显不如GAN模型,GAN能够从大量无标签数据中无监督地学习到各种数据特征,在数据扩充领域有较强的通用性[19]。

2.1 生成对抗网络模型

生成对抗网络是2014年由Goodfellow等人提出的一种新颖网络模型,其目的是通过给定的分布生成特定的样本数据。GAN核心架构是由生成器G(generator)和判别器D(discriminator)构成,其网络模型的结构如图1所示,其中随机噪声是随机采样的一个分布,常见的有均匀分布、高斯分布等,也即生成器的输入。生成器通过学习真实数据的分布生成虚假数据G(z),x表示真实数据,判别器的输入包括真实样本和生成数据G(z),其目标是实现对数据真伪的判断,D网络本质上是一个二分类网络,输出是相应的概率值。

图1 GAN网络模型结构框图

生成器G的目标是使自己生成的数据G(z)经判别器输出的概率值趋向1,即使得G(z)在D中的概率分布和真实数据x在D中的概率分布尽量一致,所以需要最小化G网络的价值函数,从而让生成的数据可以误导判别器。对于生成器,价值函数可以表示为

(1)

判别器D的目标是对输入数据的真伪进行鉴别,每个数据都有一个对应的分数,当输入数据为真实数据x时,输出的分数D(x)应趋向于1;当输入数据为生成数据D(z)时,输出的分数D(G(z))应趋向于0。在训练网络的过程中,生成器和判别器交替训练,当G网络固定时,需要最大化D网络的价值函数,然后对D网络的权值进行迭代优化,其价值函数可表示为

(2)

其中,pr表示真实数据的分布,pz为随机噪声分布,E表示对概率分布取均值操作。

对抗训练的过程也即生成器和判别器不断地迭代优化,训练过程示意图如图2[16]。

图2 训练过程示意图

设生成数据的分布记为pf,由训练初始阶段图2(a)可得,真实数据分布pr(黑色虚线)和生成数据分布pf(绿色实线)存在较大的差别,此时,判别函数(蓝色虚线)能够做出正确的判断,即对真实数据输出较大的值,对生成数据输出较小的值。随着训练过程中不断地迭代优化,如图2(b)和图2(c),生成数据的分布逐渐接近真实数据的分布。由训练的最终阶段图2(d)可得出,生成数据的分布和真实数据的分布已完全重合,判别器无法辨认数据的真伪,此时pf=pr,在固定生成器模型的条件下最优判别器D*为

D*=pr/(pr+pf)

(3)

理论上,当生成数据和真实数据分布一致时,判别器对真假数据的判别概率均为0.5。根据式(3)可知,当pf=pr时,最优判别器D*的输出也为0.5。此时,将最优判别器D*代入式(1)生成器的价值函数变为

(4)

其中JSD(‖)表示琴森-香农散度(JS散度),生成器G利用JS散度作为真实数据分布和虚假数据分布之间距离的衡量方式,由于JS散度是非负的,-log 4为G网络的局部最优解,此时可认为生成数据完美拟合了真实数据的分布。

训练GAN是生成器和判别器相互竞争,不断优化,最终达到纳什均衡的过程。由于同时训练两个网络,训练过程中仍会遇到较大的问题,主要体现在以下几个方面:

1) 训练时无法保证GAN网络进入纳什均衡状态,导致最终的模型进入振荡,而非收敛到底层真实目标。

2) GAN网络不合适处理一些离散的数据,容易重复生成完全一致的现象,即“模式坍塌”。

2.2 GAN模型在SAR图像中的应用

相比于其他深度生成模型,生成对抗网络模型独具优势,在深度生成领域一枝独秀,由于原始GAN存在难以收敛、模式崩溃等现象,研究者们不断地对GAN模型进行改进,衍生出近千种改进模型,短短数年,基于GAN模型的应用不断刷新着图像处理等领域的新高度[20-22]。GAN具有极强的拟合真实数据分布的能力,在SAR图像的数据扩充和辅助图像解译等方面有很好的应用前景。截至目前,GAN衍生模型已经逐步开始应用在SAR图像处理领域,根据目的不同,GAN的SAR图像处理中的应用可以分为两个方面:基于GAN的SAR图像数据生成和基于GAN的SAR图像超分辨率重建。

1) 基于GAN的SAR图像数据生成。由于SAR成像原理的特殊性,由回波得到的成像结果难免有大量噪声杂波和相干斑,使得生成器将真实图像中的噪声等干扰项误判为目标特征、判别器将干扰项当作判断生成目标是否为真的标准。利用MSTAR数据集作为训练样本,利用原始GAN进行训练,数次迭代后,生成样本崩溃为一堆杂散的噪声,生成失败结果的SAR图像如图3所示。

图3 利用GAN生成失败结果SAR图像

卷积神经网络在图像数据处理上有着巨大的优势,Alec Radford等[23]提出的深度卷积生成对抗网络(deep convolutional generative adversarial networks,DCGAN)就是将生成对抗网络和卷积神经网络相结合的网络架构。DCGAN是GAN模型一个重要的改进,至今仍是常用的生成式网络结构之一。DCGAN原理和GAN相同,主要在网络架构上进行如下改进:生成器使用分步长卷积(fractional-strided convolutions)实现上采样,判别器使用步长卷积(Strided convolutions)实现下采样。利用DCGAN对MSTAR数据集进行训练,真实图像与生成图像如图4所示,DCGAN模型可以得到各个方位角下的SAR车辆数据,且生成的效果较好。但有研究表明:生成器的反卷积结构存在棋盘效应(checkerboard artifacts)[24],即生成的图像放大后存在类似棋盘的纹理现象,影响图像的效果;虽然DCGAN具有更稳定的架构,但并未从根本上解决GAN训练稳定性问题,模式崩溃现象仍然存在,训练时仍是先对判别器进行多次训练,再对生成器训练,需要平衡G和D的训练进程。

图4 利用DCGAN生成SAR图像和真实图像对比

WGAN(Wasserstein GAN)[25]在理论上给出了GAN训练不稳定的原因,即JS散度不适合衡量两个分布之间的距离,Martin Arjovsky等人引入EM距离(Earth-Mover distance)来代替JS散度,由此产生了WGAN。EM距离的定义如下:

(5)

式(5)中:∏(Pr,Pf)表示所有联合分布的集合。对于任意联合分布γ,可以从中采样(x,y)~γ得到一个真实样本x和一个生成样本y,‖x-y‖为真实样本和生成样本之间的距离。所以Ε(x,y)~γ[‖x-y‖]为联合分布γ下样本对距离的期望值,EM距离为可能的联合分布中对这个期望值的下界。

WGAN允许先训练判别器达到最优,然后网络提供损失给生成器,这样不再需要对生成器和判别器进行平衡,可以像训练其他神经网络一样进行训练。判别器被训练为最优时的目标函数可表示为

L=Ex~pf[D(x)]-Ex~pr[D(x)]

(6)

WGAN中判别器施加Lipschitz约束(L约束)的方式不合理,其使用的权重裁剪会使判别器的参数趋于两极,即全部集中在阈值的最大值和最小值两个点上,此时相当于一个二值神经网络,严重影响判别器的能力。WGAN-GP[26]通过梯度惩罚(Gradient Penalty)的方式施加L约束,即直接将判别器的梯度作为正则项加入到判别器中,加入梯度惩罚后判别器的目标函数为

(7)

选取35张对比度较高的舰船数据作为训练集,然后利用WGAN-GP模型进行仿真,得到图像如图5所示,从上到下各行依次为真实样本、生成样本。受生成图像尺寸以及目标所处场景的复杂程度,所生成的舰船数据含有较多的相干斑噪声,但通过初步仿真可以证实将GAN模型用于SAR舰船图像生成是可行的。

图5 利用WGAN-GP生成SAR舰船数据(a)和真实数据(b)图像Fig.5 Using WGAN-GP to generate SAR ship data(bottom)and real data(top) comparison

梯度惩罚的缺点是惩罚只在局部有较好的效果,如果数据类别增多,随机插值会使判别器的约束失效。谱归一化生成对抗网络(Spectral Normalization for GAN,SNGAN)[27]把谱范数的平方作为正则项,其收敛速度比WGAN-GP更快,且效果更好,是目前对模型施加L约束的最好方法。此时谱归一化后目标函数可以表示为

(8)

DCGAN、WGAN和WGAN-GP等几种GAN模型优缺点如表1所示。

表1 GAN模型优缺点

上述几种GAN衍生模型主要是从训练稳定性角度对原始GAN进行改进,也是在SAR图像扩充领域较为常见的几种GAN模型。Jiayi Guo等[16]利用原始GAN对MSTAR数据集进行扩充,补全了SAR目标在各个方位角下的样本数据。受SAR成像机理的影响,图像中含有大量的相干斑噪声和杂波的干扰,使得原始GAN易发生模式崩溃现象,最终生成一堆杂散的噪声。Fei Gao等[28]基于DCGAN研究了不同标记率对SAR目标识别网络的影响,为半监督或无监督学习提供了一种思路。张明蕊[29]基于WGAN-GP对MSTAR数据集进行样本扩充,并利用SVM分类器构造样本筛选机制,提出一种生成可靠SAR图像的网络模型。鲍鲜杰[30]基于DCGAN、WGAN以及WGAN-GP三种方法对MSTAR数据集进行扩充,并给出视觉对比效果。在对舰船数据处理中,杨龙等[31]利用pix2pix对SSG舰船数据集进行扩充,此数据集由部分SSDD数据,部分Sentinel-1数据和GF-3数据共2 000张SAR图像组成,然后选取信息熵、等效视数、平均梯度以及目标长宽比作为生成图像的评价指标,最后利用SSD检测算法进行实验,结果表明检测精度有一定提升。李诗怡等[32]提出一种从单一图像学习图像内部分布的无条件生成对抗网络,并对SSDD数据集进行训练,并将生成数据标注后加入到SSD和Tiny-YOLO两种目标检测算法中,实验结果对检测性能起到了很好的提升作用,但网络每次只能训练一张图像,缺乏多样性。GAN模型在MSTAR数据集上应用较为广泛,在对舰船数据进行生成也取得了一定的成果,证实了GAN模型在SAR图像数据生成方面存在巨大的潜力。

2) SAR图像超分辨率重建。SAR图像质量的高低决定了其应用的效果和广度,分辨率是衡量SAR图像质量高低的重要指标之一,其表示图像所能提供地物信息的细节程度,分辨率越高的SAR图像所包含的细节丰富度越高,甚至可以根据SAR图像得出目标不同部位的信息。受星载SAR图像分辨率的限制,在SAR舰船目标检测任务中,需要通过技术手段来提升SAR图像分辨率。

图像超分辨率重建一直是计算机视觉领域的研究热点之一,SRGAN(super-resolution generative adversarial network)[33]是GAN模型在图像超分辨率应用上的一个成功案例。SRGAN从特征上定义损失函数,生成器采用参数化的残差网络,判别器采用VGG网络结构,损失项由特征图的差异来决定,模型的损失函数包括对抗损失、图像的整体方差和特征图差异3种损失项。在SRGAN的基础上,Wang等[34]提出了一种增强分辨率的生成对抗网络(enhanced super-resolution GAN,ESRGAN),对网络的结构、损失函数进行改进,且不进行批量归一化,删除BN层已被证明有利于增强性能和减少计算复杂度[35],尤其是训练数据和测试数据差异较大时,BN层训练时使用小批量的均值和方差,而测试时使用整个数据集的均值和方差,这样往往会引入不适的伪影,限制了泛化能力,ESRGAN在纹理和细节上均优于SRGAN。

Shi Xiaoran等[36]基于SRGAN和深度卷积神经网络设计了一种针对低分辨率SAR图像自动识别方法。首先进行直方图均衡、中值滤波、阈值分割等SAR图像预处理操作,再由SRGAN增强分割后的低分辨率SAR图像,然后对增强后的SAR图像进行分类。通过在MSTAR数据集上验证可知,增强后的SAR图像分类效果更佳。Wang Longgang等[37]利用SRGAN对TerraSAR-X数据进行实验,将SRGAN算法与双三次插值的结果进行对比,分析该算法的性能,并利用MSE和SSIM定量评估生成图像质量,证明SRGAN在SAR图像超分辨率的重建精度和计算效率方面可以取得重要突破,其提出的感知损失函数可以获得高分辨率,高保真度和光学照片般的SAR图像。Zheng Ce等[38]提出了一种基于SNGAN的图像超分辨率重建方法,在网络层的改进中采用ESRGAN去除BN层的方法,减少冗余计算;并指出常见的激活函数并不适用于SAR图像,引入缩放指数型线性单元(SeLU)[39]作为生成器的激活函数,从而赋予系统自归一化能力,使其更适合SAR图像,在TerraSAR-X图像和MSTAR数据集上的实验结果表明了所提方法在SAR图像超分辨率重建和目标识别任务上的有效性。

近年来,对GAN模型的研究一直呈现出蓬勃发展的势头,GAN衍生模型的训练稳定性越来越好,生成图像的分辨率越来越高,细节也越来越清晰,例如“大力出奇迹” 的BigGAN[40]、“风格多变”的StyleGAN[41-42]等在SAR图像处理领域有着巨大的潜力。表2为几种重要的GAN衍生模型的信息统计,包括模型的核心机制和生成图像的最高分辨率。

3) 评价指标。如何评价生成数据的优劣是自GAN提出以来一直研究的热点,除了通过观察者观察生成图像的质量来评价的方法,还发展出一些定量评价的方法,目前大多数评价的方式为:首先提取生成图像和真实图像的特征,再根据度量准则度量所提取的特征的差异或距离。

表2 几种重要GAN衍生模型信息

对于图像生成任务,比较流行的评价指标有起始得分(Inception Score,IS)[43]和弗雷歇起始距离(Frechet Inception Distance,FID)[44]。

IS评价指标用来度量模型得分。其值越大表明模型生成图像的质量越好,用DIS来表示IS得分,其计算形式为:

DIS=exp(Ex~Pf[KL(pM(y|x)‖pM(y))])

(9)

计算IS得分时需要使用Inception Net分类网络,pM(y|x)表示真实数据的标签分布。IS得分主要考虑了清晰度和多样性两方面,KL散度用于衡量两个概率分布的距离,其值越大,表明概率分布差异越大,pM(y|x)和pM(y)的距离足够大,说明生成模型既拥有高质量又具有多样性。

FID评价指标是一种距离的度量指标,其值越小表明生成模型分布与真实分布的差异越小,以此来判断所学习的模型的优劣。用DFID来表示FID得分,其计算方式如下:

(10)

其中,下标r和f分别表示真实样本和假样本,(ur,∑r)和(uf,∑f)分别表示真实数据分布和生成数据分布的均值和协方差。基于FID和IS的评价方式均是从特征层面度量生成图像与真实图像之间的距离。

针对图像超分辨率重建任务,客观量化的质量评价指标主要有峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性(structural similarity index method,SSIM)[45]。

PSNR用于测量有损变换的重建质量,此评价指标只关心像素值差异,重建图像的PSNR值越高,表明超分辨率图像失真越少,图像质量越高;SSIM是一种基于亮度、对比度和结构3个相对独立的主观度量。超分辨率图像和高分辨率图像的SSIM值越趋近于1,表明超分辨率图像与高分辨率图像越相似。

针对如何评价生成模型这个问题,尽管有如此多的方式来评价生成模型,但至今不存在统一的评判标准,Theis[46]认为,使用不同的测量方法评估GAN可能会导致相互矛盾的结论,选择哪种评估指标取决于生成图像的类型和用途。

4 结论

基于GAN模型的SAR数据扩充能够弥补SAR样本数据不足,构建更加完备的SAR数据集,促进SAR图像解译技术的发展。在图像数据扩充方面,GAN凭借其可操作性性、能从真实样本中提取较多的细节信息等优点,在SAR图像处理领域颇受青睐。通常,将GAN模型与SAR目标检测识别网络相结合,以此来提升检测识别性能,然而,将GAN模型用于SAR图像处理领域仍面临以下几个难点:

1) 受相干斑噪声的影响,现有的GAN模型生成SAR样本时训练稳定性不高,导致生成一堆杂散的噪声,且受图像分辨率的限制,对于SAR舰船数据,无论是原始SAR图像还是裁剪后的图像切片,其分辨率往往较大,使得训练难度增加,后续可以考虑引入更适合SAR图像的SeLU激活函数等网络训练小技巧。

2) 当前生成数据的评估指标大多是在光学数据训练而来的分类模型,SAR图像与光学图像之间存在较大的差异,导致生成的SAR数据缺乏有效的质量评价指标;若将生成的数据用于SAR目标检测识别等任务,由于深度学习始终是一个“黑箱”,现有的技术手段无法准确得知单个数据样本对检测识别网络的影响,对生成数据优劣的评价增加一定的难度。这就需要从SAR图像特性等相关知识来对SAR数据进行评价,不能一味追求深度学习带来的优势,应在SAR基础理论的指导下设计更适合SAR图像的评价指标。

猜你喜欢

分辨率样本图像
浅析p-V图像中的两个疑难问题
巧用图像中的点、线、面解题
规划·样本
人大专题询问之“方城样本”
随机微分方程的样本Lyapunov二次型估计
ARM发布显示控制器新品重点强化对分辨率的支持
名人语录的极简图像表达
“官员写作”的四个样本
趣味数独等4则
从600dpi到9600dpi