APP下载

基于蓝图可分离卷积的轻量级水下图像超分辨率重建

2023-07-06谌雨章郭煜玮胡世娥

计算机测量与控制 2023年6期
关键词:蓝图特征提取注意力

李 艳,谌雨章,郭煜玮,胡世娥

(1.湖北大学 计算机与信息工程学院,武汉 430062;2.国电河南新能源有限公司,郑州 450003)

0 引言

目前,随着地球人口的增多,在陆地空间和资源压力日益增加的条件下,对于水下空间及资源的开发变得十分迫切,因此水下图像处理领域的研究已引起广泛关注。但是由于水中光线的选择性衰减与水中粒子散射问题、水中浮游物以及水体本身的散射和吸收作用,水下图像会表现出颜色扭曲、细节模糊、对比度低、明亮的伪影等其他失真的问题,这给水下工作带来了极大的挑战和困难,因此近年来有许多学者为提高水下图像的质量专注研究水下图像的处理。

已经有许多算法应用在水下图像增强,包括基于暗通道先验知识[1]、基于Retinex算法[2]等,该类方法由于水中成像的特殊性存在局限性,因此近年来水下图像超分辨率重建引起了学者们的广泛关注,陈龙彪[3]等人在卷积网络中引入改良的密集块应用到水下图像进行重建;宋娅菲等人[4]将残差密集块与自适应机制相融合,提出了基于残差的水下图像重建方法;袁红春等人[5]在普通残差网络上引用了信息蒸馏机制和空间注意力模块。在图像超分辨率算法中,深度学习已经成为图像处理领域的主流算法,随着科技与时代的进步以及网络重建性能的不断提升,网络结构越来越复杂、参数量显著增加,这造成了巨大的计算开销,为此轻量级网络也开启了高飞猛进的发展模式。2017年Lim 等人[6]提出了增强型深度残差网络(enhanced deep super-resolution network),首次在图像超分辨率重建处理中移除传统残差网络中的BN 层以简化网络体系结构,将内存需求减少约40%,轻量化思想初步得以实现;后来Zhang等人深度残差通道注意网络(RCAN,residual channel attention networks)中提出残差嵌套(RIR,residual in residual)结构使网络绕过低频信息来提高特征处理的效率,同时引入通道注意力(CA,channel attention)机制来提取具有更重要信息的特征,模型性能取得了极大提升[7]。

但是这些方法由于网络深度的增加网络参数量也随之增加,导致了重建速度的降低,并没有实质上的实现轻量级网络的构建。为解决此问题,Hui等人[8]提出的信息蒸馏网络(IDN,information distillation network)利用蒸馏块和跳跃连接逐步提取丰富有效的特征,减少了滤波器的数量,在保持更好的重建精度的同时实时速度更快,Hui等人[9]后来提出的多尺度特征蒸馏网络(IMDN,information multi-distillation network)对IDN 进行改进,构造了级联多蒸馏块(IMDB,information multi-distillation module)来提取分层特征,并根据特征的重要性进行聚合;再接着Liu等人[10]提出了基于残差的特征蒸馏网络(RFDN,residual feature disillation network)进一步对IMDN 进行了改进,提出的特征蒸馏连接使得特征提取块更加简洁。2022年Li等人[11]提出了蓝图可分离残差网络(BSRN,blueprint separable residual network),通过引入蓝图可分离卷积(BSconv,blueprint separable convolution)更是进一步减少了参数、优化了卷积操作,同时引入空间和通道注意力块来增强特征,在保证重建质量的基础上,减小了网络模型及计算复杂度[12]。

为了进一步提高其性能并且减少模型参数、提高重建速度,本文设计了一种基于蓝图可分离卷积的轻量级超分辨率网络,利用蓝图可分离卷积代替普通卷积进行运算,减少特征冗余;同时使用增强空间注意(ESA)和对比度感知注意(CCA)[9]来增强模型能力;相比BSRN,去除ESDB模块中的特征蒸馏连接,简化了网络模型,同时更好地利用了剩余的局部特征进行特征浓缩细化。

1 基于蓝图可分离卷积的超分辨率重建方法

1.1 网络概述

本文算法整体网络结构如图1所示,通过优化卷积运算、引入有效的注意模块、仅使用级联的蓝图卷积+RELU层[13]进行局部特征提取3个方面来提高网络的效率,减少网络的冗余计算,从而实现轻量化操作。

图1 整体网络结构

该算法结构整体分为4个阶段:浅层特征提取、深层特征提取、多层特征融合以及图像重建阶段。在特征提取阶段,输入的低分辨率图像先经过蓝图可分离卷积BSConv得到浅层特征F0,然后将浅层特征F0输入到多个基于蓝图卷积的特征提取块中提取出每层特征[F0,F1,…,Fn],再经过1×1卷积和GELU 激活函数将特征进行融合与映射,最后通过蓝图卷积BSConv提取深层特征Fj。在图像重建阶段,将浅层特征F0和深层特征Fj相加后输入到上采样模块,完成重建过程。

1.2 浅层特征提取阶段

在浅层特征提取阶段,首先将输入图像ILR复制n次并沿通道维度连接至一起得到,再经过BSConv提取到浅层特征F0,该过程可表示为:

其中:Concat(·)表示沿通道维度的连接操作,n是需要连接的ILR图像的数目;HSF(·)表示浅层特征提取块。

1.2.1 蓝图可分离卷积

蓝图可分离卷积[13]BSConv是Daniel受启发于预训练模型所提出,能够更好地利用核内相关性允许更有效的分离规则卷积。BSConv的卷积原理如图2所示,标准卷积[14]每个卷积核尺寸是M×K×K,可训练参数为M·N·K2,蓝图可分离卷积的卷积核将M×K×K分离成M个K×K尺寸的卷积核,可训练参数仅需N·K2+M×N,在轻量级网络中,使用蓝图可分离卷积相比标准卷积更具优势,效率更高。

图2 BSConv卷积原理

本文中BSConv的作用是扩展通道至更高维度并进行浅层特征提取,其结构如图3所示。

图3 蓝图可分离卷积BSConv模块

1.3 深层特征提取阶段

该阶段是由多个基于蓝图卷积特征提取模块组成,采用残差连接进行局部特征学习,将浅层特征F0输入到深层特征模块逐步细化提取每层的特征。该过程可表示为:

其中:Hn(·)表示第n个特征提取模块函数,Fn(·)表示第n个输出特征映射。

1.3.1 基于蓝图可分离卷积的特征提取模块

该模块是整个算法的核心部分,相比NTIRE2022挑战赛中获得冠军方案的BSRN 算法,新提出的模块中去掉了特征蒸馏分支、采用增加通道数进行补偿,每个特征细化模块包含蓝图卷积BSConv层、GeLU 激活函数、1×1卷积层、增强空间注意层(ESA)[15]、对比感知通道注意层(CCA)[9],本文所提模块如图4所示。给定输入特征Fin,整个结构的描述如下:

图4 基于蓝图可分离卷积的特征提取模块

其中:RMj表示第j个细化模块,Frefinedj表示第j个细化特征。经过多个局部特征细化步骤后,将最后的细化特征Frefined3和输入特征Fin相加,得到最终优化的输出特征Frefined。

接下来将输出特征Frefined输入到1×1卷积层以增强模型的表征能力,同时为了保持重建效率,引入一个轻量级增强空间注意力模块(ESA)和一个对比度感知通道注意力模块(CCA),ESA 模块和CCA 模块分别从空间和通道角度增强模型的表达能力。

其中:Fenhanced为增强功能,HCCA(·)和HESA(·)分别表示CCA 和ESA 模块,使用注意力模型旨在聚合上下文信息。

1.3.2 增强的空间注意力模块

增强的空间注意力ESA 模块[15]的具体架构如图5(a)所示。它首先使用一个1×1卷积层以减少输入特征的通道尺寸,从而达到减少特征冗余的目的,接着为了降低空间尺寸使用步长为2的卷积和2×2的最大池化层,再使用一组由7×7最大池化层和步长为3的卷积组成的卷积组提取特征,最后对上采样操作得到的特征进行1×1卷积操作恢复信道大小并通过Sigmoid函数[16]生成注意矩阵后与输入进行点乘,得到最终的输出特征。此模块应用了两个跳跃连接,具有调节激活值的作用,比普通的注意力模块更加轻巧并且具有更好的性能。

图5 具体架构

1.3.3 对比度感知通道注意力模块

通道注意力机制[17]最初是通过对特征的不同通道重新分配权重,更利于分类或检测,但是对于超分辨率重建网络缺少如纹理、边缘等增强图像细节的信息。因此,在ESA 空间注意力模块后添加CCA 对比度感知通道注意力模块,该模块是利用对比度信息,包括均值和标准差的总和来计算通道注意权重以增强图像细节信息。对比度感知通道注意力模块CCA 具体架构如图5(b)所示,对比度信息值可通过以下公式进行计算:

其中:zc是输出的第c个元素,HGC(·)表示全局对比度(GC)信息评估函数。

1.4 图像融合与重建阶段

进行深层特征提取后,将每一特征模块的生成特征输出相加通过1×1卷积和GELU 激活函数来平滑逐渐细化的深层特征以进行融合和映射,再使用BSConv进行特征优化,最后使用长跳跃连接通过上采样模块进行图像重建,多层特征融合公式和重建阶段的分别如式(10)和(11)表示:

其中:F0~Fn为逐步细化提取的每层特征,Hfusion(·)表示融合模块,Ffused表示融合特征,Hrec(·)表示重建模块,该模块由一个3×3 标准卷积层和一个亚像素卷积组成,其结构如图6表示。

图6 上采样操作

亚像素卷积[17]就是通过卷积和多通道间的重组得到高分辨率图像,具体过程如图7所示,先对图像进行特征提取生成r*r个特征通道图(r即上采样倍数),再按照一定的规则将这r*r个通道的特征图组合为w*r、h*r的上采样结果即完成亚像素卷积操作。

图7 亚像素卷积操作

整个网络模型利用L1损失函数进行优化,其公式如下:

2 实验结果与分析

2.1 实验设置

本文在由Minnesota University交互式机器人与视觉实验室最新公开的水下图像数据集USR-248上进行了2倍和4倍的超分辨率重建实验[18]。该数据集包含了大量的水下实体,包括水母、章鱼、鲸类、虾类、蟹类、贝类等多种生物以及水下航行器残骸、潜水员等图片。训练集包含1 060张分辨率为480×640的真实高清水下图像及其对应的使用Bicubic下采样获得的低分辨率图像;测试集包含248张高分辨率图像与其对应的低分辨率图像。从USR-248训练集中选取编号1~1 040作为本文的训练集,从编号1 041~1 060中选取5张内容丰富,纹理清晰的图像作为本文的验证集,使用USR-248全部的测试集在Y通道上对本文提出的模型进行测量评估[19]。

本实验的训练平台为:操作系统为64位的Windows10,采用单块GPU 训练网络,显卡为NVIDIA Quadro RTX5000,处理器为Intel(R)Xeon(R)Silver 4210CPU@2.20GHz。训练测试 平台为CUDA10.2,cuDNN8.0.4,pytorch1.8.1,python3.8。在主要参数学习率的设置上,为了避免出现过拟合、欠拟合,训练时间过长,本文采用的是学习率衰减的办法。设定初始学习率为1×10-3,每迭代100 000次学习率降为原来的1/10,同时采用随机梯度下降法(SGD)以及Adam 优化器对网络进行更新迭代训练。参数β1=0.9,β2=0.999,ε=10-7,输入patch大小设置为64×64,batchsize设为16,一共训练1 000 000次。

2.2 评价指标

本文使用峰值信噪比(PSNR,peak signal-to-noise ratio)、结构相似比(SSIM,structure similarity)、UIQM 作为评价指标。

2.2.1 PSNR

PSNR[20]是一种评价图像的客观标准,用于衡量两张图像之间的差异,定义式如下:

PSNR值越大代表失真越小,表示图像质量越好。式中yi表示高分辨率图像中第i个位置上的像素值,表示重建后图像中第i个位置上的像素值,m表示图像的总像素,为图像像素可取到的最大值,例如8位像素为28-1=255;MSE为两张图的均方误差值,表达的是两幅图在每一个位置上的像素值的差异的平均,数值越大,表示两张图片在相似度上越低。

2.2.2 SSIM

SSIM[20]比传统方式更符合人眼视觉感知,其定义式如下:

其中:μ、σ分别为图像像素的均值和标准差,σ2、σxy分别表示方差和协方差,C1=(k1L)2,C2=(k2L)2是维持稳定的常数。SSIM≤1,SSIM值越大表示重建图像质量越好。

2.2.3 UIQM[21]

UIQM 是一种基于人类视觉系统(HVS)的无参考水下图像评价指标,由3个测量指标线性结合而成,分别是色彩(UICM)、清晰度(UISM)和对比度(UIConM),UIQM 的值越大,表示图像质量越佳,UIQM 如式(16)所示:

式中,c1、c2、c3为固定常数,分别设为0.028 2、0.295 3、3.575 3。

2.3 实验结果与分析

为了验证本文所提算法性能,本文算法与近年来所提出的EDSR、RCAN、BSRN、RFDN、IMDN、SwinIR[22]主流轻量级图像超分辨率重建算法在相同的数据集上进行性能及模型复杂度的比较。在数据集USR-248上,不同轻量级图像超分辨率网络中放大倍数分别为2 倍和4 倍的PSNR、SSIM、UIQM 对比如表1 所示,模型参数大小、网络重建时间、浮点运算量(FLOPs)对比如表2 所示。其中表中加粗字体为最优数据。

表2 不同网络模型大小、重建时间、浮点运算量对比

2.3.1 网络重建性能对比

从表1看出,在不考虑模型、参数的条件下,当放大倍数为2时,RCAN 网络的PSNR 和SSIM 结果最优,EDSR 网络的PSNR 和SwinIR 的SSIM 次之,除此之外,本 文与IMDN、RFDN、BSRN 三种轻量级超分辨率重建网络相比,整体性能较优,其中UIQM 值优于所有网络;当放大倍数为4 倍时,本文方法的PSNR 值优于其他所有网络,与SwinIR、IMDN、RFDN、BSRN 四种轻量级网络相比,SSIM 和UIQM 值均取得了较好的结果,其中与取得2022NTIRE挑战赛冠军方法的BSRN 网络相比,PSNR 值提高了0.022dB。实验结果表明,本文算法在提高图像对比度、饱和度方面能达到较好的重建效果。

2.3.2 网络参数量、重建时间、浮点运算量(FLOPs)分析

从表2可以看出,本文网络的参数量、运行时间、浮点运算量均为最小,进一步从轻量化方面表现出所提方法的优越性。从模型参数量方面,在不同放大倍数下本文模型参数量仅230K、250.77K,远小于所对比的其他网络模型参数量,相比BSRN 模型减少了将近31%,相较于RFDN 参数量减少约45%,相较于IMDN 网络参数量减少约67%,相较于SwinIR 网络参数量减少约74%,相较于EDSR 网络参数量减少约83%,相较于RCAN 网络参数量的减少更是达到了98%以上。

从重建时间方面,本文网络在不同放大倍数情况下重建时间均最短,BSRN 和RFDN 次之。放大倍数为2时每迭代一次仅需144 ms,放大倍数为4 时每迭代一次仅需277ms,所用时间不及EDSR 网络的1/3,相比SwinIR 缩短了63%,相比IMDN 缩短了20%,相比RCAN 缩短了将近7倍。所有方法重建时间均是在GPU 显存有部分占用的情况下测出,不同设备所测结果不同。

从浮点运算量方面,在放大倍数为2倍和4倍时本文方法每帧的浮点运算量仅为92.2G、99.29G,相比EDSR、SwinIR 网络减少了约4/5,相比IMDN 网络减少了约3/5,相比AIM2020 冠军方法RFDN 和NTIRE2022 冠军方法BSRN 减少了约1/3,相比RCAN 网络,本文的浮点运算量的减少达到了97%。

2.3.3 不同通道注意力机制对网络模型的影响

通道注意力机制的作用是给每个通道分配不同的权重以充分提取图片中有用的特征信息,本文除了与现有方法进行对比,还对比了CCA、SE[23]、ECA[24]3种通道注意力机制对网络模型的影响,结果如表3所示,表中加粗字体为最优数据。实验结果表明,3种通道注意力模块的浮点运算量相同,在模型参数方面,本文使用的CCA 模块参数量最大,与ECA 模块相差约5K,与SE模块相差不到0.5K,在模型参数大小、浮点运算量相差甚小的情况下本文所提方法PSNR、SSIM、UIQM 值都达到了最优,其中在放大倍数为2 时,PSNR 值比使用ECA 注意力模块提高了达0.9dB,因此本文模型在重建质量和模型复杂度之间取得了更好的平衡。

表3 不同注意力机制对网络模型的影响

2.3.4 网络重建结果分析

在对比实验中,图像实际的重建效果除了通过评价指标进行对比,还从视觉效果上与其他算法进行比较。本文从USR-248测试集中选取四张高分辨率图像,当放大倍数为2时重建结果如图8~9所示,当放大倍数为4时重建结果如图10~11所示,本文网络重建效果与RFDN、BSRN网络重建效果视觉上无明显差异,效果良好,但是图片整体存在过度平滑的情况,细节纹理不够清晰。

图8 不同算法对USR-248数据集中im_xb_22_进行2倍处理的效果

图9 不同算法对USR-248数据集中im_xb_304_进行2倍处理的效果

图10 不同算法对USR-248数据集中im_xb_1115_进行4倍处理的效果

图11 不同算法对USR-248数据集中im_xb_7396_进行4倍处理的效果

综上通过重建性能、模型参数量对比、重建时间对比、浮点运算量对比以及网络重建结果对比可以得知,在重建性能及视觉效果方面,所提方法落后于RCAN、EDSR,但是两者之间差距并不大,PSNR 均值的整体差值不到0.1 dB,在实现高质量重建性能的同时相比其他主流轻量级图像超分辨率重建网络,本文的参数量、重建时间、浮点运算量成倍减少,大大减少了网络规模、计算量及对硬件设备的要求,提升了运算效率,综合对比可知,本文方法在算法性能和网络模型方面实现了更好的平衡,在实际应用中更加具有竞争力。本文网络与EDSR、RCAN、SwinIR、IMDN、RFDN、BSRN 网络的参数量、重建时间及浮点运算量对比如图12所示。

图12 不同方法的参数量、重建时间及浮点运算量对比

3 结束语

本文提出了一种基于蓝图可分离卷积的轻量级水下图像超分辨率重建算法,首先使用蓝图卷积对图像提取浅层特征,再通过级联的特征提取模块进行深层特征提取,该模块中去除了特征蒸馏分支、采用增加通道数进行补偿,同时利用3个蓝图卷积来进行残差局部特征学习以简化特征聚合,通过减少网络层的数量和简化层之间的连接实现轻量化操作,最后进行图像的融合与重建,模型参数量、运行时间浮点运算量方面均优于对比算法,实现轻量化的同时重建质量也取得了较好的效果。本文方法应用于水下领域,所使用的训练集是基于水下图像,是否能在自然图像集上取得好的效果即本文算法的泛化性还有待研究。

猜你喜欢

蓝图特征提取注意力
蓝图
让注意力“飞”回来
五年蓝图
基于Daubechies(dbN)的飞行器音频特征提取
“扬眼”APP:让注意力“变现”
Bagging RCSP脑电特征提取算法
我们的健康新蓝图
A Beautiful Way Of Looking At Things
绘好国家级健康新蓝图
基于MED和循环域解调的多故障特征提取