基于深度卷积对抗网络的迷彩设计方法
2021-12-03冉建国刘亚文吕振坚
冉建国,刘 珩,张 品,刘亚文,吕振坚
(陆军工程大学 电磁环境效应与光电工程国家级重点实验室, 南京 210007)
1 引言
迷彩设计是通过将提取的背景颜色、纹理、亮度等特征信息进行分形、聚类、融合后形成具有一定斑点形状和多种颜色亮度对比的图案,达到分割、歪曲目标外形的伪装效果。目前的迷彩设计受喷涂作业的影响,大多根据地域背景特点聚类成亮度差异明显的3种或4种颜色,斑点形状和尺寸主要考虑观测距离、目标特性、人眼分辨率、伪装效果等因素,设计为大斑点迷彩、小斑点迷彩、数码迷彩等几种形式[1-2]。基于数字图像处理技术及计算机视觉技术基础上设计的变形迷彩[3]、仿造迷彩[4]、立体动态数码迷彩[5-6]、仿生迷彩[7]在图像生成效率及伪装效果方面有很大的提升,但都难以做到与背景图像高度匹配,更不能根据自然环境变化快速形成高融合背景的迷彩图案[8]。
生成对抗网络[9](generative adversarial networks,GAN)是一种无监督算法生成数据的深度神经网络架构,通过生成器G(Generator)和判别器D(Discriminator)的互相博弈,在训练过程中两个网络达到动态平衡,使得生成的图像更逼真。生成对抗网络可应用于构建高融合迷彩伪装模型,对抗网络的判别器类比于光学侦察,努力发现目标与背景的特征差异,对抗网络的生成器类比于迷彩伪装,努力减小目标与背景的特征差异,在两者博弈的过程中,目标与背景的光学特征差异越来越小,逐渐趋近于完全融合。深度卷积生成对抗网络[10](DCGAN)在图像生成和数据增强方面有优异的表现,并已在机器识别、计算机视觉等相关领域有广泛的应用。本文运用改进目标函数的DCGAN网络,克服GAN在特征提取过程中无针对性,生成的图像颜色布局随意,主要颜色失真度较高,图像结构难以保持稳定的缺点,使自主生成的图像与背景特征高度相似,在对抗中提高生成器和判别器能力,使生成的图像与背景图像特征更接近。滕旭等[11]将循环一致生成对抗网络应用于数码迷彩设计,且采用不同激活函数组合比较取得了较好的图案设计效果,但其生成的图像颜色失真度较大,没能解决迷彩伪装中最关注的难点问题。
本文采用深度卷积生成对抗网络,通过构建特征空间,改进生成对抗网络的目标函数,优化生成对抗网络算法,建立目标与背景图像之间特征相似度的数学模型,自主对抗训练不同背景的图像特征数据,形成与该背景特征高度匹配的相似图像,将背景中的目标区域设计成背景图像的一部分,从而达到完美的伪装设计效果。现有的喷墨打印装置,可将设计的迷彩图像输入计算机,在目标表面逼真复制还原图像,实现高融合迷彩伪装。
2 算法优化与模型构建
为了进一步提升DCGAN在纹理提取、颜色转换上的效率,通过扩展损失函数的维度,运用Vgg16进行特征提取,经过训练生成高融合迷彩设计方案,再利用结构损失函数和心理物理学实验进行模型评估,达到纳什均衡终止训练。
2.1 特征空间构造
一般网络识别的图像为关于二维平面空间信息的分布函数,伪装技术中对背景的平面图像仿造除关注纹理、形状等二维空间信息,尤其重视可见光波段的颜色信息,因此本文构造具有坐标空间(x,y)和颜色空间(r,g,b)信息的五维特征空间的图像分布函数p(x,y,r,g,b)和q(x,y,r,g,b)进行计算,本文为描述方便,以x或z代表图像特征空间的五维信息。在迷彩伪装设计中,一定区域内的背景图像颜色相似度高(色差小)的色空间合并,而差距大于一定阈值的颜色区域不能合并,合并后的颜色取均值或者中值,保证最后呈现出的颜色符合心理物理学规律,这种方法称为颜色聚类,不是类内的点就成了影响颜色的“杂质”。
(1)
(2)
其中,Nk表示矩形区域中总的样本点数,g(x)是类别指示变量,只取值0和1,相当于一个简化的权重系数。
构造五维特征空间的质心公式进行颜色聚类,可最大限度保留原背景的颜色信息,满足高融合迷彩设计的颜色要求。
2.2 目标函数优化
KL(Kullback-Leibler)散度和JS(Jensen-Shannon)散度分别是生成网络、判别网络与真实图像数据相似度的判据[12]。p(x)为生成图像分布函数,q(x)为真实图像分布函数,若p(x)和q(x)处处相等,KL散度为0,即生成图像与真实图像无限接近;当p(x)和q(x)有差别时,以两者的平均函数分别与生成图像与真实图像的散度求解JS散度。为了使生成网络生成的图像能以假乱真,达到高融合的目的,应尽量提高生成网络数据和真实数据之间的相似度。判断生成网络G(generator)和判别网络D(discriminator)模型相似度需要用目标函数进行测量。DCGAN基本目标函数如式(3)所示。
arg minL(z)=Ex~pdata(x)[logD(x)]+
λEz~p(z)[log(1-D(G(z)))]
(3)
从式(3)中可看出,生成网络和判别网络均有目标函数,各自训练过程中,判别网络D试图最大化公式的最终取值,而生成网络G试图最小化最终取值,最终D和G之间达到平衡,期望输出趋于一致,模型即“收敛”。
本文采用深度卷积对抗网络[13](DCGAN)进行数据集的训练,其最大优点是使用批归一化(Batch normalization)解决了初始化差的问题,同时保住梯度传播到每一层,也能够防止生成器把所有的样本都收敛到同一个点。使用最小二乘法生成对抗网络(Least Square GAN,LSGAN)中的目标函数来替代传统GAN的目标函数,即使用平方差作为损失而不是Log似然函数,使用LSGAN可以让DCGAN的模型训练更加稳定[14-16]。要实现DCGAN中背景与目标区域的高融合,需要满足两个条件:一是补全的内容是背景的延伸,生成器能够生成“骗过”判别器的图像;第二个条件是生成的图像能够将目标区域完全遮盖。
为使高融合迷彩从纹理到颜色与背景尽可能高度融合,生成对抗网络不仅需要结构稳定,颜色特征信息的训练至关重要,因此结合五维特征空间优化的最终目标函数如式(5)所示。
arg minL(z)=E(x,y,r,g,b)~pdata(x,y,r,g,b)[logD(x,y,r,g,b)]+
λEz~p(z)[log(1-D(G(z)))]
(4)
arg minL(z)=E(x,y,r,g,b)~pdata(x,y,r,g,b)[(D(x,y,r,g,b)-1)2]+
λEz~p(z)[D(G(z))2]
(5)
其中,生成器网络输入真实背景图像,输出为斑点位置(x,y)和颜色(r,g,b)特征相似的图像。
2.3 生成对抗网络模型与参数调整
本文在Windows 10系统上选用Tensorflow搭建生成对抗网络,所有算法及有效性验证均由Python语言实现,训练过程使用GPU,显卡型号为TITAN V,显存大小为32 G。图像数据库为实地拍摄及各类图库网站上搜集整理的约500张图片,经过预处理将其裁剪成像素256×256图像,并通过数据增强的方法将数据集扩充至约2 000张林地背景图像。
表1、表2分别为构建的生成模型和判别模型网络结构。生成网络由编码器、传输模块和解码器组成,首先使用线性单元作为生成器的激活函数,可以加快网络的训练速度,让网络更快的收敛。同时在生成网络中嵌入改进了目标函数的Vgg16特征提取器,因增加颜色空间,特征空间从二维增加到五维,目标函数是包含色彩损失函数的总的损失函数迭代优化,经过优化目标函数的Vgg16提取特征可使得生成图像中更好的保留原背景色彩,提升伪装效果。Vgg的输入图像是 256×256×3,通道数翻倍由64依次增加到128,再到256,直至512保持不变,不再翻倍高和宽变减半,通道数的增多使得更多的信息可以被提取出来,像素由224×224→112×112→56×56→28×28→14×14→7×7。实际背景图像纹理复杂、边缘特征不明显,在生成模型中采用5层ResNet残差连接卷积网络,保持图像整体特征的全局能力,提高图像纹理的提取能力[17]。之所以使用残差网络,是利用其保持图像整体特征的全局能力。
Conv-RELU表示本层使用了卷积和ReLU操作,stride 代表步长,filter代表滤波器的大小,ResNet代表残差层,k代表了每个Res Block卷积输出的特征映射数量。为了解决ReLU负半轴容易饱和的问题,判别网络采用LReLU作为激活函数。本文模型使用了5层ResNet+Vgg16进行特征提取,在生成器和判别器中使用了基于特征空间p(x,y,r,g,b)的激活函数,采用特征空间优化方法,同时结合了Vgg16和ResNet算法优点,不仅基于一阶矩均值计算适应性参数学习率,同时还充分利用了梯度的二阶矩均值,弥补了训练过程中梯度消失的问题,同时加强了特征的传播,综合调参以后学习率选用 0.001。
表1 生成模型网络结构
表2 判别模型网络结构
基于DCGAN的高融合迷彩设计流程如图1所示。以真实背景数据建立数据集,构建基于五维特征空间的损失函数,训练过程不断优化调整参数以减小生成数据与真实数据间的差异,通过结构相似性分析和心理物理学实验进行效果评估,形成与背景高融合迷彩图案。
图1 DCGAN高融合迷彩设计流程框图
3 高融合迷彩设计与效果检验
伪装效果评价是军事伪装斗争中不可或缺的环节,目标在战场上的生存和斗争能力很大程度上取决于伪装效果的好坏。迷彩伪装性能主要包括两方面:一是遮蔽特性;一是融合特性。遮蔽性能良好可以使敌方无法判断遮障下面的目标是否存在,而融合性能良好则可以避免被敌方注意[18]。事实上,由于遮蔽性能更容易实现,长期以来迷彩设计多强调遮蔽性能,由于近几年侦察技术的高分辨能力,完善地伪装目标变得越来越困难,这也意味着高融合具有了越来越重要的价值[19]。
3.1 基于特征空间的高融合迷彩设计
本文选取比较典型的林地背景进行高融合迷彩设计。林地背景主要指大部分被木本植物覆盖的山地、丘陵地以及森林、灌木林区等背景,植被覆盖率一般大于60%。利用前文设计的框架结构完成深度卷积对抗网络的构建,选择不同角度在同一地区拍摄部分图像进行了50个epoch共25 000次的训练,并挖空每张图像的中间部分(挖空的区域可以自由选择),现实中挖空的区域包含需要进行伪装的目标部分,然后利用训练的网络进行智能填补。实验部分之所以展示了生成的64张图像效果,一是为了进行大量的对比,避免只是个别图像效果的改善;二是当训练到25 000次时,图像本身像素还比较小,整体视图显示的效果比较好。
图2(a)代表了64张原始图像,图2(b)代表挖空中间部分的图像,图2(c)代表改进算法前填补完成的图像,图2(d)代表改进算法后填补完成的图像,对比后发现,利用原始的DCGAN算法生成的图像纹理延伸性和与周围背景颜色融合不佳,虽然能将主要目标区域覆盖,但是增加了新的问题,明显的拼接痕迹使得填补区域和周围背景融合度不高,导致全局成了新的暴露征候。而利用基于特征空间改进目标函数的DCGAN生成的图像细节虽然处理的比较模糊且部分存在阴影的地方没有处理好,但优点是目标区域的主要颜色与背景类似,纹理延伸性较好,能将周围的道路和裸露地表按照颜色渐变填补,从整体效果来看基本达到了高融合的目的。个别道路地区填补成林地背景的纹理样式,2种图像颜色出现了失真的现象,这和训练的数据集以及mask的区域有关,解决的方法是扩充数据集并改变图像中道路所在的位置。
3.2 训练损失
在软硬件相同,数据集一致的条件下,算法改进前后2种训练的损失如图3所示,红色曲线表示使用二维空间训练后的损失,蓝色实线表示使用五维特征空间训练后的损失。因为数据集背景比较单一,所以设置两次训练总次数均为 25 000次,从实验可以看出,随着生成器迭代次数的上升,损失值一开始快速下降,然后慢慢地趋于稳定,大约在 10 000次时达到平衡,这说明改进后的算法在训练时间上并没有延长,同等训练次数下却能得到更好的结果。
图2 深度卷积对抗网络生成迷彩
图3 训练损失曲线
3.3 效果检验
本文利用Canny边缘检测算法和结构相似性(Structural SIMilarity,SSIM)算法来评估生成高融合迷彩伪装的有效性。同时为了能够满足人眼对伪装性能的要求,本文还制定了野外试验方案,组织并挑选判读人员,收集、分析试验数据,为效果评价提供基础。利用以上算法生成的部分图像如图4所示。
图4 Canny算子处理效果
从这64张图像的边缘纹理图中也可以直观的看出改进之后的纹理特征和原图像在某些区域更加类似,改进前填补得到的纹理排布很密集,针对以上结果进行结构相似性的数学计算,结构相似度指数从图像组成的角度将结构信息定义为独立于亮度、对比度的反映场景中物体结构的属性,并将失真建模为亮度、对比度和结构3个不同因素的组合。用均值作为亮度的估计,标准差作为对比度的估计,协方差作为结构相似程度的度量。设置两组对比试验,将生成的图像与原图比较求得SSIM指数,高融合迷彩设计追求的正是目标与背景各项特征的相似,也就是SSIM值越大越好(以下结果均为Canny算子取0.15时的数据)。
表3对应着图4中64张图片,奇数列对应的是改进前训练结果与原图的SSIM,偶数列对应的是改进后训练结果与原图的SSIM(为了区别相同位置图像的SSIM值,用了不同的编号表示)。从表3图像结构相似性数据来看,改进前的结果中90%的SSIM值小于改进后的结果。
表3 改进算法前后生成图像的SSIM评分
下面从心理物理学角度检验融合情况,类别判定法是一种对刺激的感知进行分类的心理物理学实验方法。该方法要求观察者在观察样本剌激之后,将刺激的视觉感知按照类别判定量表进行分类。采用该方法时,首先应正确划分类别判定量表,取有特殊意义的点,如判断色差时,可将无色差、恰可察觉色差、恰可接受色差等作为分类点。一般,类别判定法的分类可以根据需要分为5类、7类、9类等,也有一些研究为了避免观察者取中间值,而将类别划分为偶数,如6类、8类等。在实验过程中,观察者按照给出的类别判定量表对观察到的刺激进行分类,然后根据Torgerson的类别判定法和统计假设理论,转化为等距量表(表4)。
在实验设计中,共安排了10名色觉正常的观察者参加,均为在校大学本科生,包括5名男性和5名女性,年龄介于20~25岁之间。每名观察者进行了2次,用来分析观察者间的精度。因此,本实验所获得的视觉评价数据共有1 280个。
对于改进前的图像,10名学生当中8名选择类别4,勉强可以接受;另外两名选择3,可感知且完全可接受,64张图像中有24张图像与背景对比不理想。而对于改进后DCGAN处理过的图像,10名学生当中5名选择类别1,无感知色差;3名选择选择3,可感知且可接受,另外两名选择4勉强可接受,64张图像中有4张图像与背景对比校突兀。可见经过改进后DCGAN处理过的图像的伪装效果更能满足要求。
表4 类别判定量
4 结论
基于深度卷积生成对抗网络的高融合迷彩设计模型利用目标背景图像中像素点之间的约束关系,引入注重颜色保留的特征空间,优化了目标函数,为背景纹理和颜色的模拟提供了合适的技术途径。以生成对抗网络为支撑的设计技术体系,可以实现设计的高融合迷彩图案,能有效对付不同距离的侦察威胁。针对模型效果评估的问题,根据机器视觉的特点提出利用Canny边缘检测算子和结构相似性(SSIM)原理以及心理物理学实验对生成的图像进行评估。实验结果表明,本文基于特征空间的生成对抗网络改进模型在纹理的延伸和颜色的保留上取得效果,林地背景图像经过训练后得到的SSIM值90%以上高于改进前的结果,验证了所提方法在高融合迷彩设计中的有效性。在今后的工作中,要进一步研究生成对抗网络的特点,提高模型在复杂背景下的高融合能力,提高生成对抗网络提取各项特征的精细度。