基于pix2pix的数码迷彩方案研究
2022-06-20冉建国
冉建国,刘 珩,张 月
(陆军工程大学,江苏 南京 210007)
数码迷彩是采用规则的最小可分辨色块,进行排列组合生成的一种能在不同分辨率下和背景特征相匹配的迷彩方案。在国外,美国自20世纪70年代开展数码迷彩研究以来,先后经历了双重纹理伪装和Dual-Tex数码迷彩,20世纪末,又相继开发了林地型、城市型和荒漠型数码迷彩,2001年加拿大国防研究基地申请了CADPAT TW专利。国内数码迷彩研究始于1984年,在87式防雷达侦察伪装遮障研制中提出并应用了双重结构迷彩,其形态与目前的数码迷彩如出一辙。2006年,在二维结构网面上实现了三维结构设计,国庆70周年大部分阅兵装备上也采用了数码迷彩。在数码迷彩伪装方案设计中,通常用提前设计好的通用模板进行填充。迷彩的本质是无限接近于使用环境以方便隐藏目标,如图1所示。在目标上实施迷彩的伪装成效,主要取决于背景颜色的复制水平和采用迷彩的类型。迷彩伪装通常依赖于聚类方法以提取主色。大多数背景基本上是色彩斑驳的,很少有单一颜色。因此,主色提取的准确与否被用来衡量迷彩伪装的优劣。
图1 不同迷彩伪装方案的视觉比较
传统方法的一个潜在缺点是在主色提取后,原始图像中的结构、纹理和颜色可能会发生变化。另外,大多数用于迷彩伪装方案设计的经典技术,使用手工拼图技术,这对设计方法的结果有显著影响。为此,我们提出了一种基于pix2pix(Image-to Image Translation,图像翻译)的设计方法,图像处理、计算机图形学和计算机视觉中的许多问题都可以归结为将输入图像“翻译”成相应的输出图像。该方法不仅消除了对参考图像的需求,而且获得了与地面真实情况的高度视觉相似性。本文利用pix2pix架构将背景图像数据集和相应的数码迷彩数据集训练后,比较生成的数码迷彩方案与背景的真实情况。结果表明,使用pix2pix有利于提取纹理的特征,表现出显著的改进,保存重要颜色信息。此外,本文的方法从像素出发预测底层结构,因此,可以说pix2pix是一种有效的处理方法,可以减少人工干预的影响。
1 理论背景
1.1 生成式对抗网络
深度神经网络是一种模仿神经网络进行信息分布式处理的数学模型,生成对抗网络(Generative Adversarial Networks,GAN)是一种神经网络的结构,具备生成数据的能力,是深度学习的一种高级形式。由于其生成数据的强大能力,在深度学习的领域广受欢迎。虽然仅仅过去几年的时间,但生成对抗网络的功能已经不再只产生模糊数字,而是能够生成非常逼真的图像,但GAN采用无监督学习的方式在提取特征的过程中没有针对性,导致生成的图像颜色布局比较随意,主要颜色失真度较高,图像结构难以保持稳定。生成器负责将噪声向量映射到潜在输出空间目标域,判别器负责区分图像是训练生成的还是真实的。生成器和判别器都是用反向传播训练的,它们都有各自的损耗函数。在这里,我们分别称它们为和。GAN的网络架构示意图如图2所示,是潜在空间,其流程是负责将采集的噪声矢量传达到,是生成器网络,将传达过来的噪声矢量转变成图像,接着,将生成的假的样本和训练数据使用的真的样本同时输入,是判别器,可以设定不同的判别参数,用以区分生成的图像和真实的数据集图像,最后,看两者图像之间的差别是否比设定的参数小来区别真假图像。目前,几乎所有的GAN都是这样的网络架构。GAN最初的目标函数如下所示。
图2 GAN的架构
~()[log(1-(()))]
(1)
其中,()是判别网络模型,()是生成网络模型,()是真实数据分布,()是生成网络生成的数据分布,是期望输出。在训练过程中,(判别网络,discriminator)试图最大化公式的最终取值,而(生成网络,generator)试图最小化该值。如此训练出来的GAN中,生成网络和判别网络之间会达到一种平衡,此时模型即“收敛”了。
1.2 研究现状
目前,国内外对迷彩伪装图案设计开展了大量的研究,从国外公开的技术资料来看,主要也是利用分形、聚类等方法设计迷彩图案,美国已实现计算机自动设计图案,由机具或机器人实施喷涂作业。国内的迷彩伪装研究起步于20世纪60年代,目前,迷彩图案设计研究较多的大学和科研院所主要有陆军工程大学、国防科技大学、陆军研究院、西安工业大学、东北大学等。采用多种模型和聚类方法对颜色、亮度、纹理、边缘、尺寸开展了迷彩图案设计。贾其等分析了目标伪装面临的侦察威胁,从人眼的分辨率和伪装斑点的设计原则出发对迷彩的斑点形状和尺寸进行了研究;陈祥安分析了迷彩伪装的特点,指出了小斑点迷彩的优点,论述了色彩混合规律和同色异谱现象,并提出了小斑点迷彩设计的初步方案;双晓结合数码迷彩和仿造迷彩的基本特点,借助计算机图像处理技术,通过提取自然背景的主色、纹理以及层次性等主要特征信息,形成以像素点阵为基本单元、能反映背景斑块特征的数码迷彩图案;武国晶等在充分考虑人双目立体成像的生理特征的基础上提出了一种基于柱透镜光栅的数码迷彩立体动态成像算法,推导出迷彩立体动态成像的视差设计原理,并根据背景深度信息将数码迷彩图像分为多幅迷彩深度序列图,最终生成一幅光栅图像,用来裱贴于光栅板后即可实现立体动态数码迷彩;张勇针对迷彩伪装设计的难题,提出了仿生迷彩的概念,将生物特征信息融入传统迷彩设计准则,阐述了仿生迷彩生成方法,设计了四种仿生迷彩,并对仿生迷彩伪装的效果进行了评估。除此之外,还有很多学者利用计算机视觉技术为提高伪装图像的质量进行了相关研究。这些方法从不同的角度设计迷彩伪装图像,并取得了伪装质量的改善,但是在伪装图像与背景的匹配质量及生成伪装图像的效率方面依然有比较大的提升空间。目前,对于伪装设计方法的研究已经不仅仅局限于迷彩斑点的设计,高精度的战场环境对伪装的准确性与实时性都提出了很高的要求,这也促使更多学者从不同角度采用不同方法来解决伪装技术的设计难题,提出可行的伪装设计方法能够使装备与背景更好地融合并且更有效率地实施伪装,已经成为军事科学界研究的重要难题。
1.3 提议方法
在GAN中,生成器仅从潜在变量产生图像。然而,在图像到图像的转换任务中,生成的图像必须与源图像相关。为了解决这个问题,可以使用条件GANs (cGAN),将附加信息作为输入。例如,接收源图像作为生成器和鉴别器的附加信息。cGANs的损失函数如下:
~()[log(1-((·)·))]
(2)
本文首次使用pix2pix来进行数码迷彩方案设计。pix2pix是一个扩展的cGAN,它学习从输入图像到输出图像的映射,并使用一个损失函数来训练这种映射。在pix2pix中,L1损耗鼓励生成器生成一个类似于条件变量的样本。它是训练图像和生成图像(,)之间每个像素差的绝对值的平均值。
1()=,,[‖(·)-‖]
(3)
最后,式(3)作为一个L1规范化术语被添加到式(2),用作对抗性损失。本工作中的损耗函数如下:
(·)=(·)+1()
(4)
其中,λ表示控制项权重的超参数。在本文的例子中,它被设置为100。在训练期间,最小化生成器,最大化判别器。换句话说,训练的目的是找到解决优化问题的目标函数:
~()[(())]
(5)
pix2pix方法需要训练阶段的图像对,由原始图像和相应的变换图像组成,生成器中使用的U-net和鉴别器中的PatchGAN有类似的架构。在U-net架构中,编码器层和解码器层通过图中黄色模块和蓝色模块“跳跃连接”的方式直接连接。因为这种连接可以避开编码器-解码器网络的瓶颈传输低级信息(这些信息通常在输入和输出图像之间共享),能够充分融合特征,有效地提高了图像转换的性能。在卷积PatchGAN中,将每张图像分成×段,不是对整个图像进行分类而是判断输入的*大小区域是真还是假。最后,取所有答案的平均值,进行最终的分类。换句话说,只有特定规模的补丁结构才会受到惩罚。pix2pix通用框架如图3所示。通过判别器输出的对抗损耗和数码迷彩图像输出的损耗约束生成图像和真实图像之间的差异,更新生成器的权值。同时训练一个条件生成器和判别器。训练生成器根据输入图像生成图像(以生成数码迷彩图像为例)。该判别器的目的是对生成的数码迷彩图像进行真假分类。
图3 pix2pix框架图
本文中的优化模型改善了得到图像的清晰度,以真实背景数据为基础,通过改进目标函数极大地减小了生成数据与真实数据间的差异;其次,通过扩展颜色空间参数尽可能地保留背景的主要颜色。最后,通过结构相似性分析和心理物理学实验进行效果评估,说明了模型在迷彩伪装中的客观性与可靠性,对伪装作业设计与实施均具有重要意义。
2 实验结果与分析
本文将pix2pix与三种较好的数码迷彩生成技术进行了比较。
2.1 数据集
本文数据集由240张背景图与相应的数码迷彩图组成,每张图像大小为256×256像素,扩充后最终得到了450张非重叠的数据集。对于训练集,我们从这些图像中提取400对随机图像。另外,为了定量评估,我们将剩余的50张图像作为测试集(在训练集中看不到)。为了验证所提出算法的有效性,本文编写了Python程序并完成了相关实验。在Windows 10系统上选用Python搭建生成对抗网络。训练过程使用GPU芯片,显卡型号为TITAN V,显存大小为120 G。
2.2 实现图像到图像的翻译
Pix2pix不仅学习真实背景到数码迷彩斑块的映射,还学习一个损失函数来训练这种映射。由于判别器的训练相对于生成器来说是快速的,因此,判别器损耗分为两部分来减缓训练过程(见图4)。生成器和判别器模型都使用随机梯度下降的Adam版本进行训练,学习速率为0.000 2。动量参数=0.5。此外,两个网络权值都是从均值为0、标准差为0.02的高斯分布初始化的。每次实验训练30个epoch,每幅图像后更新模型,换句话说,batch size为1。根据损耗值进行训练后,我们选择一个背景模型,然后使用这个模型,可以将该图像转换成数码迷彩图案。图4表示生成器和判别器损失函数在训练过程中的变化情况。
图4 生成器和判别器在训练期间的损失
2.3 评价指标和结果分析
利用结构相似性(Structural SIMilarity,SSIM)算法来评估生成数码迷彩的有效性,在评估相似性时,这个值的下降部分是由于两类数据集之间的微小差异造成的。因此,为了展示STST的优秀结果,我们检验了不同的评价指标。用于比较的度量是结构相似指数(SSIM)、峰值信噪比(PSNR)、均方误差(MSE),如表1所示。
图5a)代表原背景图,b)~f)分别表示使用不同方法生成的数码迷彩,结合表1中的数据分析生成数码迷彩的质量,SSIM值整体偏低,说明几种方法生成的数码迷彩在变形方面有不错的效果,但前4种方法颜色失真度较高,本文方法与原背景图融合性较高,所以SSIM 值稍高,颜色方面pix2pix保持得相对较好。大多数计算指标的设计不是为了直接衡量归一化图像的感知相似性,因此,评价结果有时可能与主观印象不相容。但通过视觉评价,一般可以检验不同方法的有效性,如表2所示。
表1 使用不同方法生成的数码迷彩方案评价指标(平均值±std)
图5 对来自不同方法生成的数码迷彩比较
表2 用不同方法生成的数码迷彩时间对比
下面从心理物理学角度检验几种类型迷彩的遮蔽效果,类别判定法是一种对刺激的感知进行分类的心理物理学实验方法。该方法要求观察者进行刺激感知后按照类别判定量表进行分类,如表3所示。采用该方法实验时,根据Torgerson的类别判定法和统计假设理论,将统计结果转化为等距量表。
表3 类别判定量表
在实验设计中,共安排了10名色觉正常的观察者参加,均为在校大学本科生,包括5名男性和5名女性,年龄介于20~25岁之间。每名观察者进行了两次实验,用来分析观察者间的精度。因此,本实验所获得的视觉评价数据共有100个。
将不同方法生成的图案制作成6.8 m×6.8 m的制式伪装网,在200 m距离上利用人眼进行观察。光栅法生成的数码迷彩10名学生当中7名选择类别5(恰好不可接受),另外3名选择类别4(勉强可以接受);马尔科夫链法生成的迷彩10名学生当中5名选择类别4(勉强可以接受),另外5名选择类别5(恰好不可接受);立体动态和循环一致生成网络生成的迷彩结果10名学生当中7名选择类别3(可感知且可完全接受),2名选择选择类别4(勉强可以接受),1名选择类别5(恰好不可接受);本文方法10名学生当中7名选择类别1(无色差),另外3名选择类别3(可感知且可完全接受)。
表4 心理物理学统计
3 结束语
本文使用了pix2pix架构来进行图像到图像的转换,为背景纹理和颜色的模拟提供了合适的技术途径。以生成对抗网络为支撑的设计技术体系可以生成融合度较高的数码迷彩图案,能有效对付不同距离的侦察威胁。针对模型效果评估的问题,提出利用结构相似性(SSIM)和心理物理学实验方法进行伪装效果评估。实验结果表明,该方法获得的处理时间比所有测试方法都要短(见表2),并且在评价指标上取得了不错的效果,验证了所提出方法在数码迷彩设计中的有效性。因此我们得出结论,该方法优于经典常规的数码迷彩生成方法,可用于数码迷彩的方案设计。