基于特征迁移网络的大范围地面场景红外图像快速生成研究
2023-09-21牟卿志宋西宁孙春萍
牟卿志, 周 荃, 宋西宁, 孙春萍
(潍坊职业学院机电工程学院, 山东 潍坊 262737)
0 引 言
红外成像制导具有目标识别能力强,全天候打击,识别精度高等特点,已成为现代精确制导武器的重要组成部分[1-2]。 在对地面红外成像制导武器的研制中,需要提供大量不同条件下的大范围地面场景红外图像作为输入进行测试。 然而,由于试验次数限制或非合作目标等原因,外场实测很难得到大范围的地面红外场景[2]。 目前常采用采集大量不同位置实测图片手动拼接后,再进行人工修正方式,耗费大量时间与人力物力成本。 若需要获得不同高度/气候条件下的大范围的地面红外场景,则该过程更加冗长复杂。
红外成像仿真技术可为解决这类问题提供一种极为有效/经济的途径,对现代精确制导武器的开发和研制来说具有重要意义[3-5]。 传统红外建模仿真方式依据纯理论计算,需要大量时间和精力去完成高精度的建模与计算。 当建模精度不足情况下,仿真结果往往与实测数据相差较大。 本文不同于传统红外建模仿真方式,在特征迁移工作的启发下,搭建VGG19[6]与SANet[7]网络框架,探索采用基于卫星实拍的大范围可见光图片与小范围红外实测数据结合的方式,结合可见光图片纹理内容信息与实拍红外数据高置信度特征样式,生成具有与实拍数据相近特征样式的大范围场景红外仿真。 实验结果分析表明,该方法生成的大范围红外场景与实测数据具有较高的一致性,且图像生成方便快捷,在各类仿真试验中具有一定的实用价值。
1 特征迁移神经网络简介
特征迁移[8-9]是一种用于通过给定的特征图像,均匀地在内容图像上合成全局和局部特征信息,同时保持其原有图像内容结构来创建新图像的技术。 特征迁移工作示意如图1 所示。
图1 特征迁移工作示意Fig. 1 Example of style transfer
在特征迁移网络发展初期,其一般用于艺术及生活方面的应用,如画作风格迁移、笔触模仿等[10-11]。 随着模型研究、数据集组建及测试工作的深入,在合理调节参数及设置训练数据集的情况下,特征迁移网络在保持内容结构而不丢失特征样式丰富性的需求方面依旧呈现出优异的表现,从而逐步开始应用于样本扩增、数据增强等高价值任务领域,为空间探测、高空红外成像等稀少样本目标场景的数据扩增提供了新颖有效的方法[12-13]。
近期,一种新的特征关注网络(SANet)和损失函数被提出。 对于指定特征样式迁移,由SANet 和解码器组成前馈网络,学习内容与特征信息的相关性。 SANet 使用可学习的相似性内核,将内容特征图进行特定表示,并训练模型以恢复相同的结果。推理过程中,将输入图像之一替换为样式图像,并根据特征样式尽可能还原内容图像。 本文基于文献[9]的思路,在大范围地面场景红外图像快速生成方面也取得了较好结果。
2 基于VGG 与SATnet 的特征迁移网络
2.1 整体架构
整体网络架构由VGG19 网络模块与SANet 网络组成。 VGG19 网络用作编码器与解码器模块,编码器模块与SANet 网络结合构成前馈网络,来对图像间的相关性进行学习,解码器模块用于对推理后的图像进行恢复与生成,最后通过调试定义的损失函数,对生成图像进行评价训练。 整体网络工作流程如图2 所示。
图2 VGG-SANet 网络工作流程Fig. 2 VGG-SANet network workflow
2.2 VGG 网络
VGG 系列网络由牛津大学Visual Geometry Group 团队研发搭建,主要贡献是证明增加网络深度可以提升网络精度与训练效果。 VGG 网络结构相对传统神经网络的改进是采用连续的若干个3x3的卷积核代替较大卷积核(11×11,7×7,5×5)。 对于给定的感受野(与输出有关的输入图片的局部大小),采用堆积的小卷积核,优于采用大的卷积核。因为多层非线性层可以增加网络深度来保证学习更复杂的模式,而且代价更小。 在VGG 中,使用了3个3×3 卷积核来代替7×7 卷积核、2 个3×3 卷积核来代替5×5 卷积核,其主要目的是在保证具有相同感知野的条件下,提升网络的深度,在一定程度上提升神经网络的效果。
常用VGG 架构有16 层(VGG16) 与19 层(VGG19)两种。 在VGG16 架构中,包含有16 个隐藏层(13 个卷积层和3 个全连接层),在VGG19 架构中,包含有19 个隐藏层(16 个卷积层和3 个全连接层),在部分层间采用池化层进行连接。 VGG 架构的具体实现如图3 所示。
图3 VGG 网络架构(包含SANet)Fig. 3 VGG network architecture (includingSANet)
2.3 VGG 编码与解码
通过VGG 网络进行卷积与池化等操作,其实是对输入图像不断进行信息化编码的过程。 该过程将原始图像像素映射到特征图谱集合,被多种网络架构用于学习有效的表示。 通常认为,在更高卷积层数生成的特征图谱,反应的信息越高维,概括性的描述能力越强,反之则对细节的描述能力更强。 在编码过程中,这一特性被用来选择特征图谱,并输入到其他网络架构(如SANet)网络中进行信息处理。 在解码过程中,网络架构的输出又通过VGG 网络的逆过程进行还原,完成最终的编码与解码过程。
2.4 VGG-SANet 网络结构
在前向推理过程中,输入一幅图像后,SANet 网络选用VGG 编码器中的ReLU4_1 与ReLU5_1 的特征图谱作为输入,记图像Ic与Is得到的特征图谱为、、,其作为两组输入分别输入到两个SANet 网络中,计算生成输出与。 该两组信息再次结合与进行计算处理,得到最终的生成特征图谱Fmcsc,并通过VGG 解码器还原得到输出的合成图像Ics。
在反馈训练过程中,输出的合成图像Ics通过VGG 编码器再次进行编码,与Is图像及先前提取的及进行计算,得到损失函数用以指导网络的训练。 VGG-SANet 网络架构如图4 所示。
图4 VGG-SANet 网络架构Fig. 4 VGG-SANet Network Architecture
2.5 SANet 网络实现
如图5 所示,单个SANet 网络的输入为两幅图像在VGG 某一层的特征图谱Fc与Fs,将处理后的及Fs分别进行运算后得到和。 则有WhFs,而Wf、Wg、Wh是可通过学习更新的权重矩阵。 最终得到:
图5 SANet 网络实现Fig. 5 SANet Network
其中,i为输出位置的索引,j为所有可能输出位置的枚举索引。
在通过单个SANet 网络得到输出的Fcs后,与VGG 指定层特征图谱Fc进行运算,得到与,再对进行上采样并联合卷积后,得到预期输出的。
2.6 损失评价函数
网络构建后,需要通过损失评价函数,对每次网络输出的结果进行评价,并以此更新网络中各矩阵的权值直到收敛,以实现网络最佳性能。 反馈训练网络示意如图6 所示。
图6 反馈训练网络Fig. 6 Feedback training network
在反馈训练网络中,函数Ls通过输入图像Is与Ics进行VGG 编码与特征图谱计算实现,函数Lc通过计算VGG 编码得到的及推理网络中的、来实现。 最后通过Ls与Lc,设定附加项Lid,共同得到总的损失评价函数L。 其计算公式为:
最后可得:
其中,Icc(或Iss)表示从两个相同内容(或样式)图像合成的输出图像,每个ϕi表示编码器中的各层编码函数;λid1和λid2是损失评价函数Iid的调节权重;λc与λs为总损失评价函数L的调节权重。
在实际调整训练参数的过程中,通过对数据集的测试发现,保持Lc、Ls、Lid三者的数量级在同一水平,且令Lc、Ls起主导作用,训练收敛精度较高,测试集会取得较好的结果表现。 在本文实验中,权重参数设置为λc=1.5,λs=3,λid1=1,λid2=40。
通过式(5)~式(8)并引入数据集训练,最终实现网络的生成。
3 实验结果与分析
3.1 实验结果分析思路
在本文实验中,为保证可见光-红外图集的特征能够准确对应,采用已有数据集OCTBVS[14]作为可见光-红外配对图集,提供训练内容。 在测试实验中,选取实拍红外图像区域部分及可见光整体部分作为网络输入,从而生成特征迁移后大范围红外仿真图像。 此外,还将大范围可见光图像进行灰度转化调节作为对比组(此时手动调整至灰度与真实红外图像一致,对其他指标进行观察),进而验证方法的有效性。
3.2 实验结果
实验结果如图7~图10 所示:
图7 实拍可见光图像Fig. 7 Real visual image
由此可见,实拍可见光图像与实拍红外图像(图7、图8)整体结构虽大体一致,但在纹理、边缘亮暗分布等细节方面明显表达有不同特征;可见光转灰度图像(图9)除灰度与实拍红外图像(图8)人工调节一致外,其在结构、亮暗边缘等方面上依然存在较大差异;而特征迁移生成图像(图10)通过结合真实小范围红外图像所提供的信息,在细节层面与实拍红外图像高度一致,在整体灰度层面也有较好的表现。
图8 实拍红外图像Fig. 8 Real infrared image
图9 可见光转灰度模拟红外图像Fig. 9 Simulated image generated by visible light to gray scale
图10 特征迁移生成模拟红外图像Fig. 10 Simulated image generated by style transfer
3.3 指标分析
在图像指标对比分析中,选取平均灰度、平均梯度、信息熵H(U)、梯度相似度GSIM 作为指标,用作图像相似度的对比指标参考。 其中,、、H(U) 三者作为单幅图像的通用数据指标,已有非常成熟的定义:
(1)平均灰度:
其中,图像中单个像素点灰度记为f(i,j)。
(2)平均梯度:
其中,梯度采用Sobel 算子计算,记为G(i,j)。
(3)信息熵:
其中,信息熵记为H(U),n阶灰度中各阶取值的概率分别为p1,p2,…,pi,…,pn。
对于两幅图像对比用的梯度相似度GSIM指标,则定义采用像素4 邻域绝对值之和,表征图像梯度幅度值。 设原始图像为x,像素坐标为(i,j),则在坐标(i,j) 上的梯度表达式记为Gx(i,j),则有:
式中:Gx(i,j)、Gy(i,j) 分别为图像x和图像y在(i,j) 处的梯度幅度值,梯度相似度的值越大,说明两幅图像的相似程度越高。
3.4 指标分析结果
表1 为对红外真值图像(图8)、可见光转灰度图像(图9)、特征迁移生成图像(图10)按3.3 节所规定指标进行的量化分析。 通过对比,验证本方法对于地面场景红外图像进行仿真生成的准确性与可行性。 分析表1 指标数据可知,除因对比需要进行人工调节灰度指标外,特征迁移生成图像的各项图像数据指标与实拍红外图像均有较高的一致性(差异<15%),证明存在小范围真实红外图像前提下,本文方法可在大范围可见光地面场景中,规律性的生成相关纹理、细节,快速构建与实际效果相近的大范围红外仿真地面场景,从而在相关仿真实验尤其是半实物仿真实验过程中,可有效提高效率、节约成本。
表1 指标分析结果(归一化)Tab. 1 Index analysis results (By normalized)
4 结束语
快速准确的构建生成大范围地面场景的红外图像是目前红外成像领域的研究热点。 本文通过构建基于VGG-SANet 的深度学习网络,在小范围红外实测图像的特征信息与大范围卫星可见光图像的内容结构间实现了迁移,从而实现了大范围地面场景红外图像的快速生成。 实验结果表明,所生成图像评价指标方面接近于实测红外图像,具有较高的置信度,在现有的仿真实验中具有一定实际意义。 但如何对输入图像进行更有效的预处理及对生成图像进行更为准确的二次标校,仍需做为进一步研究的方向。