水下图像仅可察觉差异预测模型

2021-02-02吴迪，袁飞，程恩

厦门大学学报(自然科学版) 2021年1期

吴迪，袁飞，程恩

(厦门大学信息学院，水声通信与海洋信息技术教育部重点实验室，福建厦门361005)

水下航行器采集到的光学图像在海底地形勘测、水产养殖等方面扮演着重要的角色.优质的水下探测图像促进海洋相关研究的发展，图像等多媒体业务逐渐成为水下通信领域研究的重点.采集到的水下图像往往需要通过水声信道传输到水面，而水声信道是无线信道中最复杂的一种，恶劣的信道条件使水声通信不得不面对有限的带宽[1].多年来，如何在图像内容的保护程度和传输开销之间找到平衡点，是水下图像通信的研究重点.水下通信的传统做法一般通过设定阈值以删除低于阈值的图像系数以实现图像压缩,目前大多是以峰值信噪比(peak signal-to-noise ratio,PSNR)、均方根误差 (root mean square error,RMSE)、结构相似性(structuralsimilarity,SSIM)度量图像压缩前后的效果；但这些指标所反馈的质量往往与人眼视觉系统所感知的质量存在偏差.此外，传统做法依靠经验设定阈值，无法根据图片实际情况进行最优调整.因此采用传统优化方案可能会为链路的质量控制带来巨大的压力.

仅可察觉差异(just noticeable difference, JND)表示人眼不能察觉的最大图像失真，最早由Chou等[2]提出可在编码领域应用.如图1所示，通信系统根据JND模型预测结果自适应调整压缩程度，实现传输资源分配的最优化，在有限的水声信道条件下传输更有效的图像信息.因此，将JND模型应用在水下传输领域可以弥补上述传统水下通信优化方案的缺点，设计一种适用于水下图像的JND模型监督压缩重构后的图像质量，在带宽严重受限的水下传输中十分有意义.

图1 JND模型在水下图像传输中的应用Fig.1Application of JND model in underwater image transmission

现有的JND模型可分为3类：1) 像素级模型[3-5]，直接计算像素域中每个像素的JND阈值；2) 子带级模型，将像素域图像变换到子带域，例如离散余弦变换(DCT)，然后计算每个子带的JND阈值[6-7]；3) 图像级JND(picture wise JND,PW-JND)模型[8-9]，人眼视觉系统能够感知到的图像最小差异.前两种模型通过简单地将每个像素估计出的JND阈值求和获得JND图像，在水下传输时无法根据实际需求自适应调整压缩程度.此外，由于只是简单地将JND阈值求和，所以可能无法准确地综合反映图片，而PW-JND模型弥补了这一缺点.目前PW-JND模型的相关研究还比较少：Liu等[8]提出基于深度学习的 PW-JND 预测模型，用于空气中图像的联合图像专家组(JPEG)压缩预测；Lin等[9]提出通过预测PW-JND模型的分布函数来预测PW-JND图像.现有的PW-JND模型都不是为水下图像设计的，没有考虑光在水下特殊的吸收和散射特性.本文将水下光学图像的特点考虑进JND模型的设计中，提出一种基于水下图像的JND预测模型.该模型包括基于水下图像特征提取模块的全参考损伤感知网络和基于反馈的搜索策略，以此在有限的水下条件下传输更有效的信息.

1 水下图像JND预测模型

光在水下的特殊吸收和散射特性是水下图像区别于空气中图像的最重要特征，大多采集到的水下图像颜色失真，导致水下图像本身质量不佳.研究表明：人眼对不同质量的图像有不同的关注[10]，当图像质量较低时，人眼会只关注图像结构(如纹理)是否完整，故而质量不佳的水下图像比空中图像具有更多的颜色信息冗余，这也意味着人眼对水下图像失真具有更高的容忍度.本文考虑上述特点，提出一种适用于水下图像的PW-JND预测模型.该模型采用全参考水下图像损失感知网络，区分失真图像对其参考图像是感知有损还是无损；再结合实际应用需求，设计基于反馈的搜索策略来搜索原始水下图像的JND图像用于水下传输.

1.1 全参考水下图像损伤感知网络

本文中提出一种全参考的水下图像损伤感知网络，称之为感知有损/无损预测器.该预测器作为JND模型的一个重要组成部分来预测失真图像相对于参考图像是否具有感知上的损失.

如图2所示，感知有损/无损预测器从左到右依次由图像块生成器、基于双通道网络[11]的水下图像特征提取模块、全局质量估计模块和分类器组成.首先由图像块生成器将失真的图像及其参考图像进行分块；然后分别从同一位置的参考图像和失真图像中随机选择图块，经过水下图像特征提取模块提取图像特征；接着，将特征经过全连接层(FC)512-1回归得到块的质量度量分数，并将图像中多个块的质量度量分数进行平均池化，得到整个图像的质量度量分数，得分越大表示受损图像与参考图像之间的特征差距越大；最后将全局质量度量模块的输出经过分类器中的S形函数在[0,1]中重新缩放输出，如果输出大于0.5，则将变形图像确定为相对于参考图像而言有感觉上的有损，否则为无损.S形函数是二分类中最常使用的激活函数，与其他激活函数相比，S形函数处处连续，便于求导，而且便于前向传输，故而本文选取S形函数作为激活函数.

图2 感知有损/无损预测器框架Fig.2The framework of the perceptually lossy/lossless predictor

水下图像特征提取模块的结构如图3所示.由于相同条件下，双通道网络[11]比常用的暹罗网络[12]具有更高的精度和更快的训练速度.该模块的输入部分借鉴双通道网络的结构来分离失真块和参考块的红绿蓝(RGB)通道，得到6个通道；再由主分支将这6个通道融合拼接在一起，输入预激活残差网络(ResNet)[13]提取特征；引入一个水下图像颜色信息读取器分支，提取失真块和参考块的R通道与G通道的比值以及R通道与B通道的比值，用以反映光在水下的特殊吸收和散射特性，其中R通道强度往往要比其他颜色通道更快衰减，水下图像R通道与其他通道的比值可以更有效率地反映水下信息[14-15]；之后，将水下图像颜色信息读取器提取的底层特征，与主分支提取的高层特征通过融合层拼接在一起，再通过1×1 的卷积层进行降维，以更好地实现水下图像的特征提取；最后采用ResNet[13]对特征进行平均池化，得到512×1×1的图像特征，以便于后续进行全局质量度量模块中的回归运算.

k和N分别表示卷积核大小和数量.图3 水下图像特征提取模块的详细结构Fig.3Detailed structure of underwater image feature extraction module

1.2 基于反馈的搜索策略

实际应用中，第一张与参考图像产生感知上差异的失真图像(也就是1-stPW-JND)往往需要搜寻得到，而第i(i>1)个PW-JND图像通常没有太多实际意义；因此，本文根据实际需要提出了一种改进搜索效率的策略.

图4为基于反馈的搜索策略框架.暂存器中存储不超过3个图片，一个参考图像和两个失真图像(Dist_1和Dist_2).“Dist_2”图像用于与参考图像进行比较.首先，采集到的图像存储在参考图像的位置，生成失真图像并将其放置在“Dist_2”，其失真图像被预测为“感知无损”，将失真图像从“Dist_2”移动到“Dist_1”，若“Dist_1”位置有现有图像，则丢弃现有图像.然后，系统调整相关参数生成新的失真图像，并用新的失真图像来更新“Dist_2”.以此类推，直到在“Dist_2”上找到第一个被预测为“感知上有损”的图像(即1-st PW-JND图像).该方法也可用于寻找感知失真度为n的图像(即第n个PW-JND图像)，只需在参考位置更新图像，即将第m个PW-JND(m=1,2,…,n-1)图像依次移动到参考位置.为了节省资源，本文在找到第一个感知上有损的图像后即停止生成新的受损图像.

圆圈代表感知有损/无损预测器.图4 基于反馈的搜索策略框架Fig.4The framework of the feedback-based search strategy

2 实验分析及讨论

实验分为训练阶段和预测阶段.在训练阶段，构建水下图像JND数据集，对感知有损/无损预测器进行训练；在预测阶段，将训练好的感知有损/无损预测器和基于反馈的搜索策略结合，搜索到1-st PW-JND图像输出，用于水下传输.

2.1 水下图像训练集的建立

本文将质量因子(QF)作为反映参考图像与失真图像之间相对差异的指标，其值在[1,100]之间.QF值越大，表示失真图像的相对失真程度越小.当QF值为100时，表示原始水下图像；QF值为1时，表示100个图像中相对失真程度最高的图像.

考虑到本文提出的JND模型主要用于水下传输领域，故JND数据集包含5种水下传输常见的失真类型，分别是多级树集合分裂(SPIHT)压缩失真图像、SPIHT传输失真图像、压缩感知(CS)压缩图像、CS传输失真图像、水下彩色失真图像.每个失真类型包含20幅原始图像，每个原始图像对应100种失真等级.根据文献[16-17]中描述的JND图像的主观测试和统计方法，评估和统计出每个参考图像对应的JND图像.为了保证泛化性，本文选取了年龄段、性别分布均匀的10名志愿者参与主观质量测试；同时，为了避免先验知识引起的测评偏差，保证评测结果的有效性，志愿者均没有图像质量评价的从业经验，但考虑到水下光学图像较强的应用背景，故测评人员均为具有水声通信和水下探测等相关工作经验.志愿者们坐在受控的环境中，比较并排显示的两幅图像，确定两幅图像之间是否存在可察觉的差异.对于主观质量测试结果采用二等分搜索程序[16]处理，然后采用高斯混合模型[16-17]的方法综合多个志愿者的主观结果，得到JND数据集的主观评测数据.将JND水下图像数据库与主观评测数据作为感知上有损/无损预测器的训练样本.训练样本被描述为(xi,yij,lij)，其中：xi为参考数据，表示第i张原始图像；yij为受损数据,表示失真图像；lij为标签.j从0开始，yi0表示采集到的原始水下图像xi.一个xi对应多个yij.当yij相对于xi来说感知上无损时，lij被标记为 0，否则被标记为1.

2.2 预测器的性能评估

感知有损/无损预测器的性能测试过程中参考文献[8]的实验设置，学习率初始化为1×10-4，每个小批量包含 4 张图像.基于PyTorch 1.1和 Python 3.6实现网络，使用统一计算设备架构(CUDA)在机器上对其进行训练.为了评估提出的可感知有损/无损预测器的泛化能力和准确性，在这项工作中进行五重交叉验证.首先，将水下图像JND数据库中的每种失真类型下的20张源图像随机分成5份，分别放置在5个子集{S1,S2,S3,S4,S5}中，每次选择3个子集来训练预测变量，一个用于验证，另一个用于测试.交叉验证结果如表1所示，验证集和测试集的Acc平均值分别为95.5%和95.1%，表明预测变量的Acc很高，且接近相应的测试Acc，性能稳定.其中k=3时的训练准确率(Acc)如图5所示.可以看到，随着迭代次数的增加，验证集的Acc迅速提高，并在800次迭代后基本稳定.此外，在预测阶段，每对图(参考图像和受损图像)的平均预测时间是0.374 s，符合实际应用的需求.

2.3 JND模型的性能评估

为了继续验证本文所提出JND性能，本文中对比了该模型与基于深度学习的图片级JND模型[8](称为DLB)、基于分解模型的像素域 JND模型[3](称为DM)、基于自由能原理的像素域 JND模型[4](称为FEP)、基于增强模式复杂度的像素域JND模型[5](称为EPC).对于被对比的图片级JND模型[8]，使用与2.2节相同的训练集和参数设置；对于像素级模型，参考文献[8]的比较方式预测像素级JND模型的PW-JND.比较模型感知损失值用式(1)定义，x表示参考图像，Disti表示失真图像，一张参考图像对应多张失真图像Disti(i=1,2,3,…)，Z(x,Disti)用于预测失真图像Disti相对于参考图像x来说是否有感知上的损伤，如果Disti对于参考图像x上有感知到损失，则Z(x,Disti)输出为1.

表1 交叉验证结果Tab.1 The cross-validation results

图5 感知有损/无损预测器的训练性能(k=3)Fig.5Training performance of the perceptually lossy/lossless predictor (k=3)

(1)

其中：T是图像x的RGB三个颜色通道的总像素数；S是x与Disti之间出现偏差的像素数；λ是出现偏差的像素数与图像总像素数之间的比值，参考文献[8]将λ设为0,0.05和 0.1.

采用峰值信噪比(PSNR)、QF、结构相似性(SSIM)，特征相似性指标(feature similarity,FSIM)、梯度幅度相似性(gradient magnitude similarity deviation,GMSD)和视觉显着性(visual saliency index,VSI)作为评估指标.被预测的PW-JND与真值PW-JND之间的评估指标的差异越接近于0，表示预测误差越小，JND模型越准确.例如，ΔPSNR是真值PSNR减去被预测PSNR的结果，|ΔPSNR|越大意味着预测误差越大.

图6中绘制了不同JND模型下的1-st PW-JND图像的PSNR.可以看出本文所提出JND模型预测结果的大多数ΔPSNR非常接近于0，意味着具有很高的预测精度，与真值之间的误差很小.与其他JND模型相比，本文所提出的PW-JND模型的预测波动更小，即稳定性更好.

为了进一步比较，表2中列出了多个JND模型预测结果与真值之间绝对差值的均值.对于|ΔQF|，|ΔPSNR|和|ΔSSIM|，本文预测的PW-JND 分别为 2.19，0.91 dB和 0.16×10-2，在所有比较模型中为最小值.其他的评估指标也得到了相似的结果.因此，相对于被比较的其他JND模型，本文所提出的模型准确性最高，更适合于水下传输.

图6 不同JND模型对第一张PW-JND图像的预测结果Fig.6Prediction results of the 1-st PW-JND under different JND models

表2 预测差异绝对值的平均值Tab.2 The means of absolute prediction differences

3 结论

在水下图像传输策略中，传统的水下传输优化方案不能很好地反映图像主观质量并根据主观质量自适应调整压缩程度.为了提高通信效率，本文提出针对水下图像的JND模型.该模型由感知有损/无损预测和基于反馈的搜索策略组成，感知有损/无损预测器专门针对水下图像设计，用于预测失真图像是否有感知上损失.基于反馈的搜索策略根据预测器预测结果自动调整压缩率并搜索JND图像.相比其他JND模型，该模型预测结果更准确，能帮助通信系统最大限度地减少信道资源的浪费.