基于风格迁移不变特征的SAR与光学图像配准算法
2022-05-07陈世伟杨小冈李小锋
陈世伟, 夏 海, 杨小冈, 李小锋
(火箭军工程大学导弹工程学院, 陕西 西安 710025)
0 引 言
卫星遥感是人类对地球环境观测的有效手段,随着卫星遥感技术的发展,基于多传感器成像的异源图像配准变得越来越重要。实际工程应用中,由于合成孔径雷达(synthetic aperture radar,SAR)图像的特定成像原理,其视觉解释是一项具有挑战性的任务,但SAR成像具有全天时、全天候、不受光照和天气等条件影响等诸多优点。相反,光学传感器测量地面物体反射的太阳辐射,图像的解释更容易,但又存在受光照、云雾、季节、阴影等条件影响较大等缺点。通过以上分析对比可以发现,在某些方面SAR 图像可以与光学图像形成优势互补,因此实现两类图像之间的有效配准对多种信息融合具有重要的意义。SAR与光学图像匹配的常用方法可分为基于强度和基于不变特征的匹配两类。基于强度的方法通常利用相似性度量,如归一化互相关(normalized cross correlation,NCC)、互信息或交叉累积剩余熵。另一方面,诸如点、线条、轮廓或区域等特征被广泛用于基于不变特征的匹配方法,常用的不变特征有尺度不变特征变换算法(scale-invariant feature transform,SIFT)、最大稳定极值区域(maximally stable extremal regions,MSER)等。但是,不同的成像机理使得SAR与光学图像之间存在很大的风格差异,这造成不变特征很难提取。如果能在异源图像之间进行风格迁移,将使异源图像匹配转化为同源图像匹配,将大大降低匹配难度,这种方法随着深度学习的兴起,越来越受到关注。Merkle等通过训练一个图像风格迁移网络,将光学卫星进行图像风格迁移生成逼真度很高的人工SAR图像,然后采用常见匹配方法(NCC、SIFT等)进行人工SAR图像与SAR图像的配准,取得了较高的准确性和精度。但是,该方法需要大量的训练样本来保证生成人工SAR图像的逼真度,如果训练样本量较少,生成人工SAR图像的逼真度就会下降,采用常见匹配方法很难保证配准的精度。
本文在文献[9]的基础上,重点解决训练样本不足的情况下SAR与光学图像的配准问题。尽管SAR与光学图像在视觉上差异很大,但仍然存在一些稳定不变的边缘特征,如果能提取这些稳定边缘特征,就可以实现SAR与光学图像的精确配准。因此,提出一种基于图像风格迁移不变边缘特征的SAR与光学图像配准算法。文献[9]指出SAR图像转换为人工光学图像虽然更利于视觉理解(强化边缘特征),但会损失一些像素特征不利于后期的精确匹配,因此考虑将光学图像转换为人工SAR图像进行匹配。本文采用图像边缘作为匹配特征,考虑到SAR图像的固有相干斑噪声会影响边缘特征,因此将SAR图像风格迁移为人工光学图像,减小噪声干扰,增强边缘特征,有利于后期图像匹配。算法原理:首先利用图像风格迁移网络将原始SAR图像转换为人工光学图像;然后由人工光学图像和原始SAR图像生成差异图,并基于小波多尺度边缘增强与Canny算子提取稳定边缘特征;最后通过常规匹配算法实现人工光学图像与光学基准图像的精确匹配。实验结果表明:本文方法能够在训练样本较少的情况下,基于图像风格迁移技术与边缘不变特征实现SAR与光学图像的精确匹配。
1 图像风格迁移网络
随着深度学习的兴起,Gatys等开创性地提出了一种基于卷积神经网络的图像风格迁移,相对传统非参数的图像风格迁移方法只能提取图像底层特征,可以将图像内容特征和风格特征进行分离提取,并独立处理这些高层抽象特征。2014年Goodfellow等提出生成对抗网络(generative adversarial networks,GAN),此后基于GAN研究人员又提出了Pix2Pix、CycleGAN、StarGAN等多种图像风格迁移网络,在人脸置换、图像修复、图像转换等应用场景下生成的图像,能够达到以假乱真的效果。
1.1 GAN
GAN是一种深度学习模型,是近年来复杂分布中无监督学习最具前景的方法之一。从图像生成角度而言,GAN是生成模型,其目标是训练一个生成器(生成网络)来映射随机噪声以输出图像()。训练是通过一个对抗性过程来实现的,同时训练一个判别器(判别网络),的任务是尽可能地区分真实图像和生成的图像(),而试图尽可能多地产生更真实的()来“欺骗”,在反复博弈后达到一个平衡。GAN的损失函数为
(1)
条件GAN(conditional GAN, CGAN)是在GAN的基础上,通过添加限制条件,来控制GAN生成数据的类别。其原理为:训练时将控制生成类别的分类标签连同噪声一起送进生成器的输入端,这样在预测时,生成器就会同样根据输入的标签生成指定类别的图片了。判别器的处理也是一样,仅仅在输入加上类别标签就可以了。CGAN的损失函数为
(2)
1.2 基于图像风格迁移网络的人工图像生成
Isola等提出一种将CGAN应用于有监督图像风格迁移的经典模型——Pix2Pix模型。参照Pix2Pix模型,将输入生成器的控制条件由“分类标签”变成SAR图像,目的是生成具有SAR图像几何特性和光学图像辐射特性的人工光学图像。同理,输入判别器的控制条件也要由“分类标签”变成SAR图像,并作为“条件”和真的光学图像或生成的人工光学图像拼接在一起送入判别器。因此,本文异源图像风格迁移算法的本质是:SAR图像作为“约束条件”输入训练模型,模型拟合训练样本中光学图像的像素概率分布,模型训练好后,输入SAR图像输出人工光学图像。异源图像风格迁移网络的损失函数为
(3)
其中,损失函数由两部分构成。第一部分是CGAN损失,和普通CGAN损失函数一样,参见式(2);第二部分是损失,计算方法为真实光学图像与生成器生成的人工光学图像()逐像素求差的绝对值再求平均,如下所示:
(4)
其中,CGAN损失主要表征图像内容特征,损失主要表征图像风格特征,将两种损失结合起来能使人工图像具有更高的逼真度。另外,在利用Pix2Pix模型进行图像风格转换时,需要大量的训练样本来训练模型,如果训练样本不足,生成人工图像的逼真度会下降。
本文采用两个训练好的图像风格迁移网络模型:(训练集大小30对)和(训练集大小300对),其生成的人工光学图像如图1(b)和图1(c)所示。可以看出,随着训练样本集数量的增加,人工图像越来越接近原始图像(目标图像)。但是,受限于训练集最大为300,即使全部参与训练,生成的人工图像仍然和目标图像有一定视觉差距。图1(e)和图1(f)为文献[9]提供的图像转换结果(设其训练模型为),训练集采用69 900对SAR与光学图像,可以看出生成的人工光学图像在视觉上已经和目标图像基本没有区别了。这也充分证明训练集大小对人工图像逼真度具有重要影响。现实情况中很多匹配应用场景很难有足够大的训练样本集,从而制约了基于风格迁移异源图像匹配方法的推广应用。
图1 训练集大小对生成人工图像的影响Fig.1 Influence of training set size on generation of artificial image
2 边缘不变特征的异源图像匹配
边缘特征由于包含丰富的图像信息,在遥感图像匹配中具有更好的适应性。但是,对于SAR与光学图像这种异源遥感图像匹配,边缘特征会出现较大的变化,使得匹配难度极大。从视觉的角度可以发现SAR与光学图像仍然存在一些边缘不变特征,如果能够提取这些边缘特征,对于异源匹配是非常有益的。
2.1 基于多尺度小波的图像边缘增强
前面通过图像风格迁移网络生成的人工光学图像,可以看作原始SAR图像与目标光学图像之间的一个中间状态,模型训练越充分,则越趋近于目标光学图像。但是,即使原始SAR图像完全转换为人工光学图像后,仍会保留一些不变特征,特别是边缘不变特征,如图2所示。图像风格迁移网络将SAR图像转换为人工光学图像的过程,本质上是对部分区域进行平滑,对部分边缘区域进行强化,从而使人工光学图像在视觉上更清晰。这些被强化的边缘区域在人工光学图像上只是灰度值整体增强了,但特征是相对不变的,因此这里将被强化的边缘区域称为未变化区域稳定边缘特征。如果将转换前后的两幅图像进行逐像素比较生成差异图,即可凸显未变化区域中的稳定边缘特征。为了抑制噪声,这里采用对数比(log-ratio,LR)算子获取差异图,如图2(a)所示。
图2 小波多尺度图像边缘增强结果Fig.2 Wavelet multiscale image edge enhancement results
LR差异图对比度较弱,视觉上偏暗,直接对其进行二值分割难度很大,需要先进行图像增强。图像增强的算法很多,考虑到LR差异图依然会受原始SAR图像的遗留噪声影响,这里采用小波多尺度图像边缘增强算法。其原理为:首先用B样条小波对LR差异图进行多尺度分解;然后利用模极大值边缘检测方法,在大尺度下抑制噪声识别边缘,在小尺度下准确定位边缘;最后综合不同尺度下的边缘信息得到差异图边缘增强图像,如图2(b)所示。小波模极大值多尺度边缘检测原理如下:
设二维平滑函数为(,),对平滑函数分别求、方向的偏导数,作为基本小波则有
(5)
其中,两个函数分别为、处的水平小波函数和竖直小波函数。则图像(,)在尺度为时的小波变换两个方向的尺度函数记为
(6)
从上述的推导可以得出二维图像(,)的小波变换表达式为
(7)
式中:(·)(,)表示(,)经(,)平滑后的图像。从式(7)可以看出,(·)(,)的梯度与小波变换的两个分量成正比。因此,在尺度为时,梯度的模和相位角为
(8)
模值大小反映了图像在像素点上的灰度变化程度,模值在沿着梯度方向上取局部极大值的点对应着图像灰度的突变点,即图像的边缘点。但是,人工光学图像含有原始SAR图像遗留的噪声,部分噪声也会存在小波模极大值点,因此检测出的灰度突变点并不一定是边缘特征点。单一尺度检测出的边缘含有很多噪声,而小波变换具有多尺度性,噪声信号的模极大值由于具有随机性,一般会随着尺度的增加而减小,而边缘信号的模极大值一般会随尺度的增加而增加。因此,在小尺度下可以进行精确定位,准确地识别边缘位置,如图2(c)所示;在大尺度下可以很好地抑制噪声识别边缘,但会损失细节信息,如图2(d)所示。
2.2 边缘不变特征匹配
LR差异图经过小波多尺度边缘增强后,采用最大类间差法进行二值分割可得到二值差异边缘图像。但是,二值差异边缘图像的分辨率较低,对于变化与未变化区域的区分并不明显。因此,需要综合二值差异边缘图像与人工光学边缘图像进行再分割,即可得到未变化区域二值图像,其中白色区域代表未变化区域,如图3(a)所示。未变化区域二值图像是人工光学图像经过边缘增强和二值化区域分割的结果,会损失很多细节信息,并不能直接提取稳定边缘特征。这里采用Canny算子先提取人工光学图像的边缘特征,然后根据未变化区域二值图像分离出稳定边缘特征,如图3(b)和图3(c)所示。从图3(b)~图3(d)也可以看出,人工光学图像的稳定边缘特征大部分与光学基准图像的边缘特征是重叠的,这就为特征匹配奠定了良好基础。
图3 稳定边缘特征提取结果Fig.3 Stable edge feature extraction results
鉴于稳定边缘特征与光学基准图像的边缘特征有很强的相关性,这里采用一种常规的归一化互相关性指标Ncc作为匹配量度,也就是NCC算法。两个特征区域之间的互相关性指标如下所示:
(9)
式中:′(,)代表大小为×的稳定边缘特征图像中任意点的像素值;′(,)代表光学基准图像中某个大小为×的边缘特征区域中任意点的像素值。
基于风格迁移不变特征的SAR与光学图像配准算法步骤如下。
基于训练样本集训练图像风格迁移网络模型;
将原始SAR图像输入风格迁移网络模型生成人工光学图像;
基于原始SAR图像与人工光学图像生成LR差异图;
对LR差异图和人工光学图像进行小波多尺度增强;
采用特定阈值分割得到未变化区域二值图像;
采用Canny算子提取人工光学图像的边缘特征,结合步骤5的结果提取边缘不变特征;
采用Canny算子提取光学基准图像的边缘特征;
将边缘不变特征模板在光学基准边缘特征图像中滑动,同时计算互相关性指标,Ncc最大的区域中心即为异源图像匹配中心位置。
3 实验结果与分析
3.1 实验准备
为了全面衡量算法性能,实验选用了3类场景的SAR与光学遥感图像数据集:第一个数据集场景为城市,有300对训练图像;第二个数据集场景为港口,有100对训练图像;第三个数据集场景为山区,有50对训练图像。这些图像对事先经过预处理消除畸变误差。匹配实验之前首先进行图像风格迁移网络训练,实验环境为:硬件平台GPU为NVIDIA Tesla P40 24 GB,内存为128 GB;采用PyTorch深度学习框架实现具体卷积神经网络训练。针对同一类型数据集采用不同大小的数据样本量进行训练得到不同的图像风格迁移网络模型,训练结果如表1所示。
表1 图像风格迁移网络训练结果
3.2 匹配实验结果及分析
实验环境为因特尔酷睿2.4 G处理器,8G内存,Windows 10操作系统,Matlab R2014a计算平台。实验数据选取3组不同场景类型的SAR与光学图像对:第一组为城市场景,有50对图像;第二组为港口场景,有30对图像;第三组为山区场景,有20对图像,其中光学基准图像图幅为800×800,SAR 图像图幅为512×512,图像格式为TIF。首先针对3组不同场景的图像对采用基于边缘特征的匹配算法进行异源图像匹配实验;然后采用相应训练模型进行人工光学图像生成,并参照文献[9],用常规匹配算法(NCC、SIFT)进行匹配实验;最后采用本文算法进行匹配实验,实验结果如表2所示。采用匹配成功率(matching success rate,MSR)、匹配精度(matching precision,MP)和匹配平均精度(matching average precision,MAP)3个指标来评价匹配效果。MP为匹配中心位置与提前标注中心位置的距离(单位:像素)。MP小于5个像素,则认定匹配成功;MSR=匹配成功图像对数目/匹配图像对总数;MAP=匹配成功图像对MP的和/配成功图像对总数。
表2 匹配对比实验结果
实验结果分析:① 从总体匹配结果看,针对3组场景,本文算法相对比其他算法有较高的匹配成功率;② 从匹配成功率上看,采用基于深度学习的图像迁移转换后匹配要优于基于边缘特征直接进行异源图像匹配;③ 从第4~12组数据可以看出,训练数据越多,模型训练得越充分,匹配的成功率越高;④ 从3类场景的匹配结果可以看出,本文算法更适合港口和城市场景,因为这两类场景会存在大量稳定的边缘特征;⑤ 从匹配平均精度结果可以看出,SIFT算法的精度最高,NCC算法最低,本文算法居中,这是因为SIFT算法是基于单个像素点进行匹配的,而本文算法和NCC是基于线和区域上的像素点统计信息进行匹配的。图4给出了一组本文算法针对3种场景的匹配实验结果,图4(a)~图4(c)为SAR图像,图4(d)~图4(f)为光学基准图像,红色矩形框代表匹配位置。其中,图4(a)和图4(d)城市场景MP为2.3,图4(b)和图4(e)港口场景MP为1.2,图4(c)、图4(f)山区场景MP为4.5。很明显相对其他两个场景,山区场景的匹配误差要大一些,这也对应了实验分析结果。
图4 SAR与光学图像匹配结果Fig.4 SAR and optical image matching results
4 结 论
验证了在训练样本不足的情况下,基于图像风格迁移进行异源图像匹配的局限性;提出了基于风格迁移前后图像生成差异图的方法;提出了基于风格迁移差异图提取人工光学图像未变化区域的方法;总结了利用小波多尺度边缘增强与Canny算子精确提取SAR与光学图像在风格迁移中边缘不变特征的方法;实现了训练样本不足条件下的SAR与光学图像的精确配准。从实验结果看,本文算法在训练样本远低于文献[9]的情况下,同样用常规匹配算法使SAR与光学图像的匹配精度达到相同水平,拓展了基于图像风格迁移的异源图像匹配算法的适用范围。但是,本文实验采用的SAR与光学图像对都事先经过了预处理,消除了异源图像之间的畸变误差,因此本文算法有待进一步验证在匹配图像存在视角差异、畸变等情况下的适应性,这将是下一步研究的重点方向。