基于多尺度特征融合网络的多聚焦图像融合技术

2021-11-08吕晶晶张荣福

光学仪器 2021年5期

吕晶晶，张荣福

（上海理工大学光电信息与计算机工程学院，上海 200093）

引言

图像融合技术是指将多张图像中的重要信息组合到一张图像中，比单一源图像具有更丰富的细节[1]。由于受到景深的限制，光学器件很难捕捉到画面中所有清晰的物体[2]。针对这一问题，本文提出了一种多聚焦图像融合算法，其目的是将焦点不同的图像组合成全聚焦图像。作为扩展光学透镜景深的一种有效且低成本的方法，多聚焦图像融合技术在生物学、医学、工业、农业等领域具有广阔的应用空间[3-4]。

过去的二十年里，人们提出了很多种图像融合方法，这些方法大致可分为基于变换域和基于空间域的两大类方法。在这两类方法中，基于变换域的方法符合人的视觉特征，其中的多尺度变换域方法具有更好的特征表示能力，而变换域的选择和融合规则的设计是融合过程中最关键的两个因素。典型的变换域方法包括金字塔变换[5]、小波变换[6]、非下采样剪切变换[7]、稀疏表示[8]等。空间域融合可分为基于像素的融合方法[9]和基于块的融合方法[10]。基于像素的方法简单明了，能很好地保存图像细节，易于实现。但是，基于像素的融合算法只考虑局部邻域的焦点信息，可能会造成对比度失真或块状伪影。基于块的方法可以避免基于像素的融合算法的一些缺点。但是，块大小的选择是一个问题，因为当块选择较大时，不能保证聚焦区域的精度，而当块选择较小时，可能无法检测到重点区域。因此，块大小的选择可能会限制融合的性能。

由于具有优越的图像特征获取和信息分析能力，深度学习受到了广泛的关注，并在一些图像处理和计算机视觉任务中获得了巨大的突破[11]。本文使用多尺度特征融合网络代替传统的卷积神经网络，在增加网络宽度和深度的同时减少了参数量，提取到多层特征使系统对不同情况更具鲁棒性。图像融合的过程是将源图像输入本文训练的模型中，得到初始聚焦图。然后对得到的聚焦图进行初始分割、形态学算子和小区域滤波等后处理，生成最终的决策图，最后利用决策图和源图像获得融合图像。使用深度学习方法来解决多聚集图像融合任务具有很大的优势，不仅可以克服测量活动水平和人工设计融合规则的困难，更重要的是通过训练网络模型，联合生成活动水平测量和融合规则，大大地提高了融合图像的质量[3]。

1 网络设计

1.1 卷积神经网络

卷积神经网络（CNN）是一种流行的深度学习网络模型[12]，成功地应用于各种图像融合任务，并获得了不错的效果。在一般的CNN 架构中都会有卷积层（Conv）、整流线性单元（ReLU）、池化层（子采样）和全连接层（FC）。在CNN 中每个卷积层将一定数量的输入图像转换为一定数量的特征图，然后下一个卷积层通过使用一组过滤器的卷积运算将这一特征图量转换为另一特征图量。ReLU 激活函数的作用也很重要，它能使网络稀疏，提高运算效率，还能引入非线性因素，使得神经网络能够更好地解决更加复杂的问题。ReLU 表达式如下：

式中：Kij为卷积核；bj为偏置；⊗ 为卷积运算。在卷积操作之后，为了防止过拟合还会使用池化层来降低特征维数。全连接层一般是CNN的最后一层，它是一个核大小为1×1 的卷积层。其原理如图1 所示。

图1 CNN 原理图Fig.1 Schematic diagram of CNN

1.2 网络结构

本文将多聚焦图像融合的过程看作一个二分类问题[13]，把图像融合中活动水平的测量看作特征提取，融合规则类似于一般分类任务中的分类器，所以采用CNN 在理论上是可行的[3]。在本文提出的方法中，构建了一个多尺度融合的卷积神经网络结构，如图2 所示。网络结构可以分为三个部分：多尺度特征提取、特征融合和分类。

图2 多尺度融合的卷积神经网络 (MFCNN) 结构Fig.2 Schematic diagram of MFCNN structure

在多尺度特征提取部分，网络有3 个分支。中间的分支有3 个卷积层、1 个最大池化层和1 个上采样。其中3 个卷积层分别有64、128、256 个滤波器，它们的卷积核大小都为1×1，步长为1×1，填充为1×1，此外每一个卷积层后面都连接着一个激活函数ReLU，增加神经网络模型的非线性。最大池化层的尺寸为2×2，步数为2×2，与平均池化相比最大池化引入了平移不变性，增加了网络的非线性。为了统一维度，采用双线性插值法进行上采样。卷积神经网络在浅层能够学习一些边缘和纹理特征，在深层学习一些语义和类别信息。为了充分利用卷积过程中产生的浅层和深层特征，本文把第一层卷积得到的浅层特征连接1×1 卷积进行处理，这样可以做到在不丢失大量信息的情况下降低输入层的维数，从而避免过拟合。在第二个卷积层之后得到的特征也连接1×1 卷积进行处理。在多尺度融合层，将前面提取到的多尺度特征进行concatenation操作及向量化拼接融合，得到大小为16×32×352 的特征。在分类层中，全连接层会综合所提取的特征，生成向量直接送入Softmax 层中进行分类。网络结构参数细节如表1 所示。

表1 网络结构参数细节Tab.1 Network structure details

2 数据集构建及训练

训练卷积神经网络需要大量的标记训练图像，这样才能学习到更多有用的特征。目前还没有公开的具有聚焦和离焦标记的图像数据库，因此本文考虑在开源数据集的基础上，创建一个包含正确标记的聚焦图像和离焦图像的训练数据集，以满足训练要求。本文利用Coco 数据集中的2 200 多张高质量图像建立了训练数据集[3]。Coco 数据集里的图像都是从自然中捕获的聚焦图像，一些随机选择的Coco 数据集的图像样本如图3 所示。

图3 Coco 数据集Fig.3 Coco dataset

创建数据集时，首先将选取的图像转换为灰度图像，为了模拟出离焦情况的图片，每一个从Coco 数据集中选择的图像都通过4 个不同的高斯滤镜生成4 个版本的模糊图像，标准差分别为9×9，11×11，13×13 和15×15。接着把清晰图像和经过模糊处理的图像裁切成贴片上下相连组合到一起，操作过程如图4 所示。贴片的尺寸选取也至关重要，如果贴片太小，很难学习可用的特性；如果贴片尺寸过大，一张训练贴片可能会同时包含聚焦和离焦部分，影响训练效果。

图4 构建数据集的过程Fig.4 The process of building a dataset

最终本文选择把贴片的大小定为16×16，然后分别在清晰和模糊图像中的对应位置取出16×16 大小的贴片PA 和PB 垂直排列组合成16×32的贴片。与其他方法中单独将两个贴片分别投入网络中相比，本文将贴片对组合到一起投入网络中，可以提高分类的准确性。如果上面是清晰贴片下面是模糊贴片的，上焦点组合被标记为0，相反上面是模糊贴片下面是清晰贴片的，下焦点组合则被标记为1。这样便生成了本文训练所需要的数据集，包括100 000 对训练贴片和10 000对验证贴片，示例贴片对如图5 所示。

图5 数据集示例Fig.5 Example dataset

本方法中的网络使用随机梯度下降优化器（SGD）进行训练，这是深度学习网络中最常见的优化器。在本文的训练过程中，学习率指定为0.000 1，批量大小为128 个样本，动量为0.9，重量衰减为0.000 5，更新权重规则如下：

式中：v是动量变量；i是迭代指标；α 是学习率；L是损失函数；是损失相对于权重wi的导数。

3 设计融合方案

在进行图像融合处理之前，输入的图像已经通过图像预处理进行滤波降噪、校正配准，如果没有进行图像预处理，融合图像的质量将很难保证。如果需要融合两张以上的照片，可以采取串联的方式依次融合。输入的多聚焦图像是彩色图像，则需要将其转换为灰度图像，然后输入预训练好的网络中，网络会输出清晰度数值。融合步骤如图6 所示。可以看出聚焦信息被准确地检测到，细节丰富的区域的清晰度值接近1（黑色）或0（白色），而平缓区域的值往往接近0.5（灰色）。由于网络中的跨步操作，网络输出的初始焦点图大小与原始图像不同。要生成与源图像大小相同的全聚焦图像，只需将每个值分配给其对应的色块，然后对重叠像素进行平均，即可获得。

图6 图像融合的过程Fig.6 The process of image fusion

在获得分数矩阵后，采用流行的选择最大值策略处理矩阵。本文将矩阵转换为二值化图，阈值定为0.5，其处理方法如下：

式中：r,c为图像矩阵中的坐标。二值化图中可能会包含一些错误分类的像素，为了解决这个问题，本文利用小区域过滤器清除孤立区域或填充小孔。另外本文使用形态过滤器中的腐蚀来处理过渡部分常常存在细线和毛刺的问题，从而使连接部分更加平滑，获得了比较满意的最终分割图D。最后按照逐像素加权平均规则，计算出融合图像F：

式中：A(r,c)，B(r,c) 为输入的多聚焦图像。

4 实验与结果分析

为了验证所用方法的有效性，本文将提出的方法与影响力较高的一些方法进行了主、客观两方面的比较，参与对比的方法包括基于块（sssdi）的方法，基于稀疏表示（sr）的方法，基于多尺度分解（gff）的方法，基于像素（misf）的方法，基于卷积神经网络（cnn）的方法。

4.1 客观评价

客观评价在图像融合效果的评价中起着重要作用，融合效果主要由多个指标的定量得分来综合评估。Liu 等[3]将常用的指标分为4 类：基于信息论，基于图像特征，基于图像结构相似性和基于人类感知。在这项研究中，本文从每个类别中选择一个指标进行评估。选择的4 个度量是：归一化互信息QMI[14]、基于梯度的指标QG[15]、基于结构相似性的度量QY[16]、基于人类感知的度量QCB[17]。其中指标QMI表示融合图像和源图像之间的互信息量，QG表示从源图像注入融合图像的空间细节的程度，QY表示源图像和融合图像之间的感知差异，QCB表示在融合图像中的源图像的对比度信息。

表2、表3 分别描述的是20 对彩色图像和10 对灰色图像，采用6 种融合方法质量评估指标的平均值，数值较大表示有较好的性能。虽然本文所提出的方法无论是彩色图像融合还是灰度图像融合实验，指标QMI都略微落后，但是从4 个客观评价指标综合来看，本文方法在客观指标评价方面优于其他方法。

表2 彩色图像评价指标对比Tab.2 Comparison of color image evaluation indicators

表3 灰度图像评价指标对比Tab.3 Comparison of gray image evaluation indicators

4.2 主观评价

主观评价方法是评价者通过人眼视觉感知来对融合图像进行评价，主要的评价标准有：1) 最终融合图像的清晰度和对比度是否和源图像中的清晰区域保持一致，是否存在图像质量的严重降低；2) 融合图像中离焦和聚焦结合区域是否存在伪影、晕影之类的不清晰情况。

图7 展示了lytro 数据集中的“model girl”图像对的6 种方法融合结果。从图中可以看出，由于图像中靠近肩部区域的背景区域中存在不希望出现的噪声，因此gff 方法的融合结果非常差。sssdi、misf 和sr 方法的融合结果比gff 方法更好，但是仍存在一些多余的模糊像素。基于cnn的方法可产生良好的融合图像，然而边界周围包含一些模糊伪影。本文所提出的方法产生的融合结果非常清晰，轮廓鲜明，并且几乎不包含边界附近的模糊像素。因此，在视觉主观感知方面，本文提出的方法保留了边缘信息并生成了比其他图像融合方法更好的融合图像。

图7 6 种彩色图像融合方法的对比Fig.7 Comparison of the results of the six color image fusion methods

图8 是来自“clock”图像对的6 种方法融合结果。其中sr 方法生成的结果图整体质量较差，画质模糊。sssdi、cnn 比sr 方法生成的结果图的质量稍好，不过在这两种方法的结果图中，小时钟与大时钟交叉部分轮廓都有部分模糊的情况，有分割不准确的问题。gff 方法生成的图像较为完整，美中不足在于大时钟边框有些许伪影。misf 方法和本文提出的方法生成的图像清晰度高，精准提取聚焦区域，细节保留较完整。

图8 6 种灰度图像融合方法的对比Fig.8 Comparison of the results of the six gray image fusion methods

5 结论与展望

多聚焦图像融合的过程可以概括为从源图像中提取聚焦区域的信息，然后将这些信息组合形成全聚焦图像。本文使用深度学习的方法来解决多聚焦图像融合任务，采用多级特征融合的手段，将浅层提取的信息和深层提取的信息相结合，充分利用提取到的特性，从而减少了边界上的模糊伪影，提高了融合图像的清晰度。实验结果表明，与现有技术相比，该方法在主观评价和客观评价方面均有很大的提高。后续工作可以将此技术应用到具体的场景中，比如显微镜操作平台，可以达到扩展显微成像设备景深的目的。