基于改进GAN的路面病害图像数据增强
2024-10-18赵新旭张博熠钱慧敏刘庆华
摘"要: 路面病害数据具有丰富的空间信息且具备的特征信息关联性较高,针对现有的图像数据增强方法难以有效捕获此类信息的问题,提出了一种改进的生成对抗网络(CLSGAN),用于路面病害数据增强.首先,为了避免出现模式崩塌,保证生成图像的多样性,引入新损失项,重新构建了生成器的目标函数.其次,融合CAE的编码结构,使模型能获取真实图片的空间潜在信息,用于强化生成器对于图像空间信息的学习,提高模型的收敛速度与生成质量.最后,构建了轻量级的残差投影-扩展-投影-扩展模块(RPEPX)并引入谱归一化,进一步提升生成图像的质量并保证模型训练时的稳定性.实验在新建立的CSGP数据集上进行,结果表示CLSGAN对生成路面裂缝与凹陷图像各个评价指标FID,SSIM,PSNR都有较大的提升.最后利用Yolov5s检测网络验证文中方法的先进性,结果表明在小样本数据集的情况下,相对于传统数据增强方法,所提方法使检测结果达到最优.
关键词: 数据增强;生成对抗网络;编码器;谱归一化;RPEPX
中图分类号:TP391.4"""文献标志码:A"""""文章编号:1673-4807(2024)04-049-09
Enhancement of pavement disease image data set based on improved GAN
ZHAO Xinxu1, ZHANG Boyi2, QIAN Huimin1, LIU Qinghua1,2*
(1.College of Automation, Jiangsu University of Science and Technology, Zhenjiang 212100, China)
(2.School of Computer, Jiangsu University of Science and Technology, Zhenjiang 212100, China)
Abstract:The pavement disease data has rich spatial information and high correlation of feature information, while the existing image data enhancement methods are difficult to make the model capture such information effectively. In this paper, an improved generative countermeasure network (CLSGAN) is proposed for pavement disease data enhancement. First, in order to avoid pattern collapse and ensure the diversity of generated images, a new loss term is introduced to reconstruct the objective function of the generator. Secondly, by integrating the coding structure of CAE, the model can obtain the spatial potential information of real pictures, which is used to strengthen the generator′s learning of image spatial information, and improve the convergence speed and generation quality of the model. Finally, a lightweight residual projection expansion projection expansion module (RPEPX) is constructed and spectral normalization is introduced to further improve the quality of the generated image and ensure the stability of the model during training. The experiment was carried out on the newly established CSGP data set, and the results showed that CLSGAN had a greater improvement in the evaluation indexes FID, SSIM, PSNR of the generated pavement crack and depression images. Finally, Yolov5s detection network is used to verify the progressiveness of this method. The results show that in the case of small sample data sets, compared with traditional data enhancement methods, this method achieves the optimal detection results.
Key words:data enhancement, GAN, encoder, spectral normalization, RPEPX
近年来,深度学习[1]在公路领域快速发展,尤其是对路面病害图像的处理,经过不断地改进运用,在路面病害的检测、分类[2]、分割[3]等方面都取得了重大成功,但是训练一个良好的模型往往需要一个较大规模的数据集.常见的数据增强方法可以分为有监督与无监督两种:有监督的数据增强方法是在已有的标签数据上进行的按照设定的图像处理规则进行的变化,但这些方法在扩充数据集时会带来大量的冗余信息,增加训练负担且对模型泛化能力提升不大;无监督网络有自编码器和变分自编码器(VAE),但其生成效果并不理想.生成式对抗网络(generative countermeasure network,GAN)的提出有效解决了数据集获取困难的问题,该模型通过博弈的思想能够生成与真实图像极为相似的高质量图像.
文献[4]提出了一种基于深度卷积生成对抗网络(deep convolution generative adversarial network,DCGAN)生成人工大脑磁共振图像的方法,有助于为各种缺乏数据的临床应用提供额外的合成数据.文献[5]通过修改StarGAN的重构误差实现了人脸表情的多风格转换.文献[6]提出了一种用于太阳图像反卷积的生成对抗网络,用于恢复太阳图像中的暗点.针对条件生成对抗网络中由于分类困难导致对生成器反馈失效的问题,文献[7]提出了一种可以学习如何在数据匹配和标签匹配之间取得平衡的双投影GAN模型,同时还提出了一种cGAN模型,可以通过最小化假条件词和真条件词的f散度,直接对齐假条件词和真条件词.
但是目前GAN在公路领域应用较少,文献[8]基于生成对抗网络实现了对裂缝的端到端生成对抗学习,通过将较大尺寸的裂缝图像馈送到非对称U形生成器克服了生成器收敛过程中容易出现的“全黑”问题.文献[9]为提升检测路面裂缝模型的精度,提出了一种基于DCGAN的裂缝图像生成方法,首先运用滤波去噪以及伽马变换操作增强了裂缝特征的辨识度,并调整优化网络参数,生成了更真实的路面裂缝图像.文献[10]针对智能道路检测中样本量小的问题,将DCGAN与VAE相结合,对模型进行改进,并通过Adam优化器进行优化,得到大量与实际道路裂缝图像相似的虚拟图像.
GAN在数据集扩充方面已经取得了相当大的成功.但是在实际应用时,还是容易出现一些不容忽视的问题,如生成的图片模糊,生成图片速度太慢,生成质量不稳定,只生成少量特征相似的图片等等.文中提出了一种改进的损失敏感生成对抗网络(least squares generative adversarial network,LSGAN)模型,使用小样本数据生成大规模、可靠的路面病害数据,做出了以下几个改进:① 引入新的损失项,设计了新的生成器目标函数,保证了生成样本良好的多样性.融合CAE编码器与LSGAN生成器结构,使用编码器获得真实样本向量的空间潜在特征向量并对生成器进行训练,使得网络的收敛速度与生成质量都得到一定的提高.② 构建一种轻量级的残差投影-扩展-投影-扩展模块(RPEPX),在判别网络中分层添加RPEPX提高判别器对图片空间特征的学习能力,在不大量增加计算量的同时进一步提高了模型生成质量.③ 在生成器与判别器中都加入谱归一化,使得模型表现出更稳定的训练效果,进一步提高模型收敛的稳定性.
1"相关理论
1.1"生成对抗网络(GAN)
GAN可以使用两个敌对网络生成人工图像.它由两个部分组成,包括G和D.G负责生成,而D负责判定.D和G之间通过训练不断竞争优化,直到达到纳平衡.GAN中的损失函数定义:
minGmaxDL(D,G)=
EX~Pdata[logD(x)]+Ez~Pz[log(1-D(G(z))](1)
式中:z为随机噪声;G(z)为生成的虚假图像;x为真实样本图像;EX~Pdata为所有真实实例的期望值;EZ~Pz为所有虚假实例的期望值.
然而,GAN并不稳定,在训练过程中容易导致不收敛.此外,GAN的不稳定性使其容易出现欠拟合或过拟合.因此,在训练过程中必须仔细调整GAN的参数.
1.2"最小二乘生成对抗网络(LSGAN)
最初的GAN在生成器中引入了极大极小损失和非饱和损失,并使用sigmoid交叉熵损失函数作为判别器,但是极大极小损失和非饱和损失都会导致模型出现消失梯度的问题.LSGAN通过最小二乘损失函数构建了一个新的距离度量解决这个问题,假设对鉴别器使用a-b编码方案,LSGAN的目标函数则可以定义为:
minDL(D)=12EX~Pdata[(D(x)-b)2]+
12EZ~Pz[(D(G(z))-a)2](2)
minGL(G)=12EZ~Pz[(D(G(z))-c)2](3)
式中:a为假数据的标签;b为真实数据的标签,c为G为D设置的值,以确定生成的图像是否为真实数据.
首先通过固定G,令D的目标函数的导数为0,可以得出判别器的最佳解:
D*(x)=bpdata(x)+apg(x)pdata(x)+pg(x)(4)
minGL(G)=12EX~Pdata[(D(x)-b)2]+
12EZ~Pz[(D(G(z))-a)2](5)
将式(4)带入式(5),其中另加项12EX~Pdata [(D(x)-c)2]对minGL(G)没有影响,因为它不包含G,再使b-c=1,b-a=2就可以得到皮尔森卡方散度:
2L(G)=∫x(2pg(x)-(pd(x)+pg(x)))2pd(x)+pg(x)dx=
χ2Pearson (pd+pg‖2pg)(6)
也就是说,此时优化LSGAN等价于优化皮尔森卡方散度.所以上面的a,b,c约束也就是LSGAN损失函数所要满足的约束.这使得LSGAN减少了模式搜索,并缓解了模式崩溃问题.
2"本文方法
2.1"生成器目标函数设计
在对抗训练过程中,如果许多假样本与真样本相同,样本多样性就会丧失,即模式崩溃.文中对生成器的优化函数进行了重新设计,以克服模式崩溃问题,提高GAN训练阶段的稳定性.此外,生成样本的初始分布也是一个很容易导致多样性损失的重要因素.因此在生成器的目标函数中加入一个损失项,使得伪样本趋于均匀分布.通过增加熵项H(G(z))来增加样本的多样性.熵越大,产生的样本越混乱和均匀.因此,生成器的目标更改为:
L′G=-H(G(z))-EZ-Pz(D(G(z))-c)2(7)
式中:Pz为随机噪声的分布;(D(G(z))-c)2指数据被判断为真实的概率;H(G(z))为伪样本的熵项.
一批真实样本中的每个样本都是不同的,但如果发生模式崩溃,生成的所有样本可能都是相同的.为了解决这个问题,提出抽离术语为:
H(y)=1bs(bs-1)∑i∑j≠iyTiyj‖yi‖‖yj‖2(8)
式中:y为生成的样本;bs为一批样品的数量;i和j为生成样本的序列号.
该术语表示所生成的样本批中的每个样本都由编码器编码以生成向量.计算两个向量之间的余弦距离,然后对余弦距离的和进行平均.将该项优化得尽可能小,两个向量越正交,其相似性就越低.这一项仅用于训练生成的样本而非真实样本,因为它是为了解决生成器的模式崩溃问题而设计的.经过一系列数学推导后,损失项H(G(z))最终表示为:
H(G(z))=EZ-Pz[‖z-En(G(z))‖2](9)
式中:En是一个带参数的编码器;En(G(z))为鉴频器输出的生成样本的中间层特征.
最终生成器的目标函数为:
L′G=-EZ~Pz[D(G(z))+μ‖z-En(G(z))‖2](10)
式中:μ为亏损项目的权重值.
2.2"生成器结构设计
基于CAE在处理二维图像时能保留大量的空间信息,提出将将CAE中的编码器融入LSGAN的生成器中,提升模型对图像空间信息的获取,该模型的结构如图1,将真实的路面图像通过编码器直接映射到潜空间,从而提取出真实图像的空间特征信息,获得该真实样本向量的隐变量.
隐变量获取过程如图2,图像输入后首先通过t个卷积核W,每个卷积核搭配一个偏置,与输入x卷积后生成t个特征图h为:
ht=σ(x·Wt+bt)(11)
每张特征图h与其对应的卷积核的转置进行卷积操作并将结果求和,然后加上偏置c,获得其隐变量值,公式如下:
y=σ(Σtht·W~t+c)(12)
获取隐变量之后,再进行多次卷积与转置卷积操作最终获得生成图像.
为了防止梯度的稀疏性,使用步长为2的卷积代替最大池化,并且为了减少上采样时的信息损失,增大映射能力,用转置卷积代替原先的线性插值.生成器结合编码器结构将原本输入的随机噪声更换为了带有真实图片特征信息的隐变量,从而增快模型的收敛速度,提高模型的生成质量.其中编码器由3个3×3的卷积网络,1个3×3的转置卷积网络组成,其中第一个与第二个卷积步长为2起到下采样的作用.生成器中剩余结构由3个步长为1的3×3卷积网络和1个3×3转置卷积网络组成,最后一层使用tanh激活函数进行处理.
2.3"构建轻量级的残差投影-扩展-投影-扩展模块
在CLSGAN模型中,通过强化生成器对图像空间特征的学习,提高了生成图像质量与速度,但由于判别器卷积层较少,对于图像特征响应的层次较浅,面对生成的不太精细的图像,会产生错误的反馈,而残差网络可以强化网络的学习能力.文中设计一个轻量级的残差模块RPEPX并加入到CLSGAN模型的判别器中,提升判别器对图像空间特征的鉴别能力,进而能够提供精确的反馈到生成器,最终达到提升生成图像质量的作用.
RPEPX的结构如图3,第一阶段投影为1×1卷积,用于将输入特征投影到较低维度,第一阶段扩展为1×1卷积用于将特征扩展到不同于输入特征的更高维度,中间层使用3×3深度卷积用于学习空间特征,以最小化计算复杂度,同时保留表示能力,第二阶段投影为1×1卷积,用于将特征投影回较低维度,第二阶段扩展为1×1卷积,将通道维度扩展到初始维度并与输入结合以生成最终特征.
通过实验发现,在判别器中的第一层第二层与第三层之后添加残差块对模型生成图像优化效果最好,改进后的判别器模型如图4.
输入图像大小为128×128,通道为1,通过4个卷积核心为3×3,stride为2的卷积核,3个RPEPX模块与4个SN层之后,最终连接一个全连接层,经全连接层之后判定图像是否为真.
2.4"引入谱归一化
在训练CLSGAN模型时,发现模型收敛不稳定,生成图像质量不稳定等问题.谱归一化(spectral normalization,SN)通过约束矩阵结构满足Lipschitz约束进而消除模型在训练时容易出现的收敛问题.
图5为将谱归一化分别添加至模型各模块之后,训练2 000次过程中生成图像的FID效果图,其中FID指标越小表示生成图像效果越好.
由图5可以看出,在未添加谱归一化的情况下,模型生成图片FID值起伏波动较大,生成效果时好时坏,模型训练不稳定;在将谱归一化添加至判别器中之后,训练效果得到了很大的改善,不再出现大幅波动;在生成器与判别器中都加入谱归一化之后,模型训练效果得到进一步的提升,由此可见,添加谱归一化之后模型表现出更加稳定的训练效果,可以避免异常梯度的产生,并且有效防止参数幅度的上升.
3"实验与结果分析
为验证算法的有效性,将改进算法与未改进算法进行对比.从主观人眼观察,客观评价指标与应用检测验证对结果进行对比分析.实验在Windows 10操作系统下,基于深度学习框架PyTorch实现,CPU为3.6 GHz AMD Ryzen 5 1400 Quad-Core Processor ,GPU为 NVIDIA 1060 6 GB.
3.1"参数设置及数据集
文中数据来源IEEE大数据杯道路损坏数据集GRDDC 2020,原始数据包含日本道路损坏图像10 506张,由于数据包含大量背景信息,为满足训练要求,对原始图像进行裁剪、灰度化并重构大小以解决图像无关信息过多且图像过大难以训练的问题.原始图像大小为600×600的RGB图像,预处理之后的图像为128×128的灰度图像,为平衡图像类别的多样性,分别筛选1 000张路面裂缝图像、1 000张路面凹陷图像与200张背景图像,并组成数据集记为GCSP数据集.图6为数据集获取过程.分别抽取裂缝与凹陷图像中900张用于训练,100张用于测试.训练参数如表1,网络采用小批量梯度下降方式进行优化.
3.2nbsp;主观分析
分别使用文献[9]、文献[10]、DCGAN、WGAN-GP、LSGAN与所提CLSGAN对路面裂缝与路面凹陷图像进行生成.
图7为CLSGAN生成效果图.图7中(a)、(c)为路面裂缝与路面凹陷原图,由于沥青路面是黑色且数据采集时天气、光线等一系列外在因素的影响,导致大部分图片整体亮度偏暗,存在一定的背景噪声,图片特征与周围背景对比度偏低,经过本文模型的生成之后,由图7(b)、(d)可以看出生成之后的图像较原图亮度有了一定的提升且特征与背景的对比度有了较大提高,也有一定的去噪效果.
特别是对于数据集中亮度较低的图像,如图8、9,图8中(a)为亮度较低的路面裂缝图像,图9中(a)为亮度较低的路面凹陷图像,由于曝光程度低导致病害特征不明显,而生成的裂缝图片如图8(b),生成的凹陷图片如图9(b),生成的图片亮度更高,裂缝与凹陷特征更加清晰,但是相较于正常光线生成的图像图8(d)与图9(d),光线较暗情况下生成的图像背景噪声更多,正常光线情况下生成图像背景更加平滑.
图10为文中模型与其他模型的生成效果对比,在2 000次的训练下,LSGAN模型与DCGAN模型生成效果相近,生成的图中裂缝与凹陷特征都较难识别.WGAN-GP生成的裂缝图像可以辨别出但较为模糊,生成凹陷图像难以识别.文献[9]模型生成裂缝特征效果尚可,但对于凹陷特征生成效果比文献[10]模型生成效果差,文献[10]模型生成的裂缝图像虽然可以辨别裂缝特征,但整体较为模糊.相较于这几种模型生成效果,CLSGAN模型生成生成图像清晰度更好,轮廓与细节也都好于其他算法,能够判生成图像别所属病害类别,如图10(f).
3.3"图像评价指标分析
为了验证文中提出的算法,对算法进行消融实验,在比较同时还加入文献[9]、文献[10]进行进一步对比.采用FID,SSIM,MSE,PSNR与模型参数量评价指标,FID通过特征向量之间距离来判定真实图像和生成图像的关系,具体公式为:
FID=‖μr-μg‖2+Tr(Σr+Σg-2(ΣrΣg)1/2)(13)
式中:μr为真实图片的特征均值;μg为生成图片的特征均值;Σr为真实图片的特征协方差矩阵;Σg为生成图片的特征协方差矩阵.
FID越小表示生成图像与真实图像的特征越接近,质量越好多样性越高.SSIM是衡量两张图结构相似性的指标,越靠近1表示图片越相似.PSNR是衡量图片质量的指标,通过两张图片的MES来定义,MES越小PSNR越大,PSNR越大代表图片质量越好.
选取的测试图片为在训练完成得模型下训练测试集生成的图片,大小为128×128,用训练获取的40张图片与测试集进行对比获得FID值.
通过表2的消融实验可以得出,对于小样本数据集,在改进生成器后对于路面裂缝图像生成的FID值为200.1,SSIM为0.780,PSNR为28.6,较为改进模型各指标都有较大提升.对于路面特征更加复杂的路面凹陷图片,FID值降低了200.6,SSIM提升了0.469,PSNR也提升了11.2.由于将一维的噪声更换为了二维的图像,所以参数量(paprms)有了一定的上升.
进一步的,在判别器中加入RPEPX模块并引入谱归一化后,由于增加了对图像的深入识别,参数量又有了一定的上升,对于生成裂缝图片与凹陷图片FID分别有22.0与35.4的降低,SSIM与PSNR也都有一定的提升.总体来说对于路面裂缝与路面凹陷图像的生成,文中改进都是有效的.
在不断进行改进模型实验时,还加入了最终改进模型与其他文献模型的对比,如表3,DCGAN、WGAN-GP生成图像各项指标都较差,模型参数量DCGAN最少,WGAN-GP最多.文献[9]对于路面特征复杂的路面凹陷生成效果较差,SSIM只有0.319,PSNR值也较低.文献[9]与文献[10]模型对于路面裂缝图像生成与文中模型FID值相差不大,但SSIM PSNR相差较大,对于路面凹陷图像生成,文献[9]与文献[10]模型与文中各个指标都有一定的差距.
总的来说,各指标结果和主观观察结果大体一致,文中算法对于路面裂缝与路面凹陷图片生成效果不管是在质量、多样性还是相似性方面均好于另外几种模型,模型的参数量也远小于文献[9]与文献[10]两种算法.
3.4"应用分析
为验证对于路面裂缝与凹陷数据集增强的有效性,设计了不同数据集扩充方法的对比实验,如表4,选择Yolov5s检测模型作为评价模型,传统数据集扩充方法为几何变换,包括旋转,镜像和折叠.
检测网络选用的常见的评价指标检测平均精度map0.5,使用传统的数据集扩充方法与文中生成对抗网络扩充方法都能使检测网络精度指标得到一定的提升,但较传统扩充方法,文中方法提升更大.
4"结论
文中提出了一种基于LSGAN改进的生成对抗网络来解决路面病害数据增强的问题.首先在生成器目标函数中引入新的损失项来保证生成图像的多样性,并在生成器中融合编码器以获取真实图像的空间潜在信息,提高了网络的收敛速度与生成图像的质量.其次,构建了一种轻量级的残差投影-扩展-投影-扩展模块(RPEPX),并融入判别器中进一步提高了生成图像的质量.最后在生成器与判别器中都引入谱归一化提高了模型训练时的稳定性.
文中提出的改进生成对抗网络模型在路面病害图像数据增强上取得了一定的成功,特别对于路面裂缝图像的生成效果较好,但对于特征更加复杂的路面凹陷图像生成图像与真实图像还是有一定差距的.且经过检测实验发现在同等数据集的情况下,文中数据集扩充方法可以使检测精度达到最优.在今后的研究过程中,可以增加注意力模块以及加深网络的深度强化生成器以提升对包含复杂特征图像的特征提取,生成质量更好的复杂图像.
参考文献(References)
[1]"郑远攀,李广阳,李晔.深度学习在图像识别中的应用研究综述[J].计算机工程与应用,2019,55(12):20-36.
[2]"陈昌川,王海宁,赵悦,等.一种基于深度学习的交通标志识别新算法[J].电讯技术,2021, 61 (1):76-82.
[3]"车满强,李树斌,李铭.基于HarDNet全卷积网络的道路路面语义分割方法[J].计算机应用,2021,41(S2):76-80.
[4]"KAZUHIRO K, WERNER R A, TORIUMI F, et al. Generative adversarial networks for the creation of realistic artificial brain magnetic resonance images[J]. Tomography, 2018, 4(4): 159-163.
[5]"孙晓,丁小龙.基于生成对抗网络的人脸表情数据增强方法[J].计算机工程与应用,2020,56(4):115-121.
[6]"XU L, SUN W Q, YAN Y H, et al. Solar image deconvolution by generative adversarial network[J]. Research in Astronomy and Astrophysics, 2020, 20(11): 170.
[7]"HAN L, MIN M R, STATHOPOULOS A, et al. Dual projection generative adversarial networks for conditional image generation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. USA:IEEE,2021: 14438-14447.
[8]"ZHANG K, ZHANG Y, CHENG H D. Crackgan: Pavement crack detection using partially accurate ground truths based on generative adversarial learning[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 22(2): 1306-1319.
[9]"裴莉莉,孙朝云,孙静,等.基于DCGAN的路面裂缝图像生成方法[J].中南大学学报(自然科学版),2021,52(11):3899-3906.
[10]"PEI L, SUN Z, XIAO L, et al. Virtual generation of pavement crack images based on improved deep convolutional generative adversarial network[J]. Engineering Applications of Artificial Intelligence, 2021, 104: 104376.
(责任编辑:曹莉)