改进多尺度结构化融合的红外与可见光图像融合

2024-04-27龙志亮邓月明王润民

光学精密工程 2024年7期

龙志亮，邓月明，谢竞，王润民

（湖南师范大学信息科学与工程学院，湖南长沙 410081）

1 引言

可见光图像是通过传感器捕捉物体表面反射的光线而成像的，在足够的光源强度下包含清晰的视觉信息，但在弱光夜视环境下呈现的图像信息比较模糊。红外图像是通过传感器检测物体和环境的红外辐射能量差异进行成像的，能够区分图像的目标和背景［1］，但受成像机理的影响，不能呈现目标场景的整体环境和空间结构。因此，将弱光环境下的红外与可见光图像进行有效融合，生成一幅清晰度高、细节纹理丰富的图像，对推动军事侦察、夜间行驶和安防监控等夜视技术的发展有着重要的意义［2］。

图像融合方法主要分为传统方法和深度学习方法两大类［3］。深度学习具有强大的图像特征表示能力，按照网络框架不同，可分为卷积神经网络、生成对抗网络和自编码器网络方法［4］。传统方法主要包括多尺度变换、稀疏表示、显著性、子空间、混合等方法。其中，多尺度分解方法和融合规则的选择具有灵活性，因此研究应用最为广泛［5］。

多尺度变换通过将源图像分解为多个尺度的子图像，根据每个子图像的特点来设计适宜的融合规则，从而得到符合人们视觉感知的图像［6］。但受到源图像清晰度低和分解方法缺陷的影响，大部分多尺度变换方法存在细节提取能力不足、耗时长等问题。非下采样剪切波变换（Non-subsampled Shearlet Transform，NSST）具有高度的方向性，能够捕获图像在不同尺度上的细节信息，但在边缘附近容易产生伪影现象［7］。边缘保持滤波器成功应用于图像的多尺度表示中，其中滚动引导滤波器（Rolling Guidance Filter，RGF）可以平滑图像的细节纹理，保留图像的边缘轮廓，但存在有效信息损失的问题［8］。多级潜在低秩表示（Multi-level image Decomposition based on Latent Low-Rank Representation，MDLatLRR）能够很好地保留源图像的细致纹理，减少图像有效信息的损失，但分解过程耗时长［9］。结构化图像块分解（Structural Patch Decomposition，SPD）能够快速分离出图像的细节纹理和空间结构，还能克服伪影和光晕现象，但融合结果缺失可见光图像中清晰的细节纹理［10］。因此，为了提取图像清晰的细节信息，实现快速融合，本文提出将多尺度结构化分解（Multi-scale Structural Image Decomposition，MSID）与动态范围压缩（Dynamic Range Compression，DRC）相结合，在图像融合前，使用DRC 增强算法提高弱光环境下可见光图像的清晰度，再通过MSID 提取出清晰的细节纹理，为融合过程提供丰富的信息。

图像的整体结构、大体轮廓等基本信息属于图像的低频信息。现有的融合规则通常采用加权平均对图像的低频信息进行融合［11］，但由于红外与可见光图像动态范围的差异性较大，亮度范围不一致，加权平均融合规则容易引入噪声、降低图像的对比度。本文提出一种基于均方根误差（Root Mean Square Error，RMSE）系数的融合规则，通过计算图像局部的RMSE 系数作为融合权重，对图像的低频信息进行自适应融合，以减少噪声和失真现象。

图像的细节纹理、边缘轮廓等变化速度较快的信息属于图像的高频信息。采用范数优化、深度学习的方法可以有效融合图像的高频细节，但也存在一些缺陷。范数优化通常基于先验模型，缺乏一定的灵活性和普适性［12］；深度学习具有强大的特征提取和表达能力，在一定程度上能够生成细节纹理较丰富的融合图像，但融合框架可解释性差、耗时长［13］。本文提出一种基于图像信息熵（Information Entropy，IE）自适应调整权重的策略来优化融合高频信息，对MSID 得到的高频细节先进行初步融合，再计算初步融合图像的IE调整权重进行二次优化融合，从而将图像的高频信息进行有效融合。

由于受到源图像对比度较低以及融合过程中对比度损失的影响，大部分融合图像的对比度较低，一些方法通常先对源图像进行对比度增强再融合［14］，解决了源图像本身对比度较低的问题，但不能解决融合过程中对比度损失的问题。本文提出一种基于灰度分类的区域像素增强方法，对融合图像中不同灰度的区域进行针对性增强，能够有效提高融合结果的清晰度和对比度。综上，为了解决弱光环境下红外与可见光图像融合存在的清晰度和对比度低、细节纹理不足、融合耗时长等问题，本文提出一种改进MSID 融合的红外与可见光图像融合方法。

2 相关工作

2.1 动态范围压缩

动态范围压缩算法通过压缩图像的亮度范围，使图像的整体亮度更加均衡，从而提高图像的清晰度。Zhou 等提出一种基于引导滤波的DRC 算法［14］，在实现DRC 的功能外，还体现了对比度恢复。首先，将弱光下的可见光图像通过引导滤波器得到滤波图像，即有：

式中：IVI为可见光图像，Ig为滤波图像，G为引导图像，r为滤波器尺寸，eps为滤波的边缘保持参数。

通过自然对数ln（·）运算得到可见光的基层和细节层图像，为了避免对数运算后细节层和基层的像素值为负，ln（·）运算的对象加上常数1，如下：

式中Ib，Id分别为可见光的基层和细节层图像。

通过尺度缩放因子对基层进行动态压缩，加上细节层和对比度恢复因子得到对数域的夜视增强图像：

式中：β，γ分别为尺度缩放因子和对比度恢复因子，其计算公式如下：

其中T为对比度目标基。

最后，通过自然指数运算exp（·）从对数域中恢复夜视增强图像IVI_en。

2.2 结构化分解

SPD 是一种作用在小尺度图像块上的分解方法［10］。通过对图像进行分块操作，将一幅图像分成若干个图像小块，再把若干个图像小块分解为平均亮度、信号强度和信号结构3 个特征，将图像的亮度信息、纹理信息和结构信息分离出来，对克服融合过程中的重影现象有着较好的稳定性。图像块x的SPD 过程如下：

式中：||·||2为L2 范数运算，l代表被分解的平均亮度，表示图像的整体明暗程度，代表图像的低频信息，通过对图像块x进行均值滤波得到；c代表被分解的信号强度，描述图像中局部的对比度和纹理信息，通过计算图像块x与l之差的L2 范数得到；s代表被分解的信号结构，分析了图像信号的物体几何形状和空间关系，通过计算图像块x与l之差再除以c获得。信号强度c和信号结构s共同表征图像的高频信息。

3 算法原理

本文在MSID 融合的基础上，引入DRC 算法增强弱光夜视环境下可见光图像的清晰度，分别改进图像低频和高频成分的融合规则，提出了一种基于灰度分类的区域像素增强算法对融合后图像的对比度进行增强，融合框图如图1 所示。

图1 改进MSID 融合的红外与可见光图像融合方法的结构框图Fig.1 Framework of infrared and visible image fusion method based on improved multi-scale structral fusion

3.1 动态范围压缩和多尺度结构化分解

采用DRC 算法增强弱光环境的可见光图像，获得夜视增强图像IVI_en，再通过MSID 将红外图像IIR和IVI_en分解为金字塔结构的平均亮度l，信号强度c和信号结构s3 个特征。MSID 的分解流程如图2 所示，首先通过滑动滤波器将源图像分解成多个小块，然后对小尺度的图像块进行SPD，分解得到的l通过下采样操作，采样结果作为输入继续进行SPD，图像尺寸为输入的1/2，循环往复，直到分解次数j＝J，最后得到J+1 个不同尺寸的高频层c·s和1 个低频层l。

图2 MSID 分解流程Fig.2 Decomposition process of MSID

3.2 低频融合

为了增强图像的亮度信息，代表图像低频信息的平均亮度l一般采取γ校正加权法进行融合，但该方法存在信息丢失、引入失真等缺陷，本文提出一种基于RMSE 系数的融合策略。两幅图像的RMSE 系数反映图像之间的相似性，而图像相邻像素与均值之间的RMSE 系数比值反映了图像局部的变化程度。为了将图像的低频信息有效融合，减少失真现象，通过计算图像块局部和全局RMSE 系数的比值来融合l。

3.1.1 计算均方根误差

通过MSID 得到尺寸为k1×k2的l，其全局RMSE 系数的计算结果如下：

式中：μl为l的均值，（m，n）表示当前像素坐标，同理可求得尺寸为K×K的局部RMSE 系数RK。

3.1.2 融合平均亮度

根据式（10）将R进一步转换为l的融合系数α，l的融合结果lF如下：

式中：下标IR 和VI 分别表示红外与可见光部分。

扩展到整个图像上，图像分块用均值滑动滤波来实现，低频部分的融合系数用BW表示，第J层的平均亮度l融合结果如下：

式中：f（·）表示均值滑动滤波器，为第J-1 层平均亮度l通过下采样后的结果。

3.3 高频融合

高频细节信息的融合在很大程度上决定了图像融合的质量。为了突出融合图像的细节纹理，本文提出一种基于图像IE 自适应调整的融合策略，先对MSID 方法得到的信号强度c、信号结构s进行初步融合，再计算初步融合结果的IE 自适应调整融合权重，进行二次优化融合，能够有效融合图像的细节纹理和空间结构。

3.3.1 初步融合

s与c的乘积可表示为图像的去均值模块，表达图像块的高频信息。为了使融合图像的纹理信息清晰可见，使用最大值融合策略来融合图像块的信号强度c，采用基于信号强度的幂函数系数β来加权融合图像块的信号结构s，融合公式如下：

式中：cF，sF分别为所求信号强度c和信号结构s的融合结果，q为幂次。

3.3.2 二次优化融合

图像的信息熵是衡量图像信息量的度量标准之一，反映图像中含有细节信息的丰富程度。其定义如下：

式中：i指图像的灰度值，L表示图像的最大灰度值，Pi表示灰度值i的像素数Ni与总像素数N的比值，如下：

通过计算初步融合结果的信息熵生成优化权重ne，即：

式中：指数运算保证权重大于1，系数ω控制优化的尺度，δ表示优化的偏量。图像的IE 越大，偏量δ越小，避免注入无效的信息导致图像失真。

基于IE 自适应调整权重二次优化高频细节过程如下：

式中：s可用（x-l）/c表示，（xi-li）即表征图像高频信息的去均值模块。

扩展到整个图像X上，图像分块用均值滑动滤波来实现，高频部分的融合系数用DW表示，第j层高频细节二次优化后的融合结果可表示为：

其中X（0）指代融合前的图像IIR和IVI_ne。

3.4 图像重构

根据SPD 分解式（8）的逆变换可知，将第J层低频层l和高频层c·s的融合结果聚合可得出第J层图像块的融合结果：

根据金字塔结构的MSID 的逆变换，将第j+1 层图像块的融合结果通过上采样和均值滤波操作，再与第j高频层的融合结果进行聚合，得出第j层图像块的融合结果，如下：

式中：↑（·）运算符为上采样操作，进行一次上采样操作，图像尺寸扩大2 倍。

通过J次循环迭代，可重构出融合图像XF（0），记为：

3.5 对比度增强

针对融合图像的对比度较低问题，本文提出一种基于灰度分类的区域像素增强算法。其原理是根据图像的灰度范围划分区域，通过增加图像目标和背景之间的像素灰度差的动态范围，从而提高图像的对比度，包括灰度分类、区域像素增强两个步骤。

3.5.1 灰度分类

根据像素灰度级的特点，将图像像素划分为低灰度、中间灰度和高灰度3 个区域。其中，中间灰度区域是像素由黑转白的过渡区，因此范围最广。根据灰度分类参数A，B将融合图像的像素值划分为3 个区域段，即图像像素img（m，n）＜A的区域为低灰度区，A≤img（m，n）≤B的区域为中间灰度区，img（m，n）＞B的区域为高灰度区。为使中间灰度区范围最广，参数B为A与图像最大像素值的一半之和，即：

式中参数A为常数。

3.5.2 区域像素增强

低灰度区的图像整体颜色靠近黑色，高灰度区的图像整体颜色接近白色。为了增加图像像素的动态灰度差，对低灰度区的像素乘以增强系数AE，此时AE＜1；对高灰度区的像素乘以增强系数BE，此时BE＞1；对中间灰度区的像素不做处理，保留图像的灰度区域，如下：

式中imgNE为增强结果。

增强系数AE和BE的确定是增强图像对比度的关键，计算公式如下：

式中：λ用来调节像素灰度的动态差，a，b为增强校正系数，保证AE＜1，BE＞1。

a，b与图像的灰度分类参数相关，计算公式如下：

4 实验

实验在配置为Intel core i5-12500H，CPU 主频2.5 GHz，16G RAM，Windows11 系统下的计算机上运行，环境平台为MATLAB R2016b。

红外与可见光图像融合实验选用16 对包含不同军事场景的TNO 公共数据集，以及6 对包含车辆道路和行人的CVC-14 数据集。夜视增强过程中，引导图像G与输入图像相同，滤波器尺寸r取图像尺寸较长边的0.04 倍，边缘保持参数eps=0.01，对比度目标基T=4，MSID 分解参数J=5，低频融合中的系数K=7，信号结构融合系数的幂次q=4，均值滑动滤波器模板为5×5，优化尺度系数ω=0.08，对比度增强过程中灰度分类参数A=100，λ=2。

为了验证本方法的有效性，本文选择9 种主流的图像融合方法进行实验对比，包括贝叶斯（Bayesian，Bayes）［15］、卷积神经网络（Convolutional Neural Networks，CNN）［16］、基于引导滤波的背景增强（Context Enhancement based on Guided Filter，GFCE）［14］、基于引导滤波的混合多尺度分解（Hybrid Multi-Scale Decomposition based on Guided Filter，HMSD_GF）［14］、基于多尺度分解和范数优化的图像融合方法IVFusion［5］，MDLatLRR［9］，MSID［17］，NSST［7］和相对全变分分解（Relative Total Variation Decomposition，RTVD）融合方法［18］。其中，GFCE，IVFusion 的框架中包含预处理流程。

为了客观验证本方法的有效性，选择5 种客观评价指标来衡量不同方法的融合效果，包括平均梯度（Average Gradient，AG）、交叉熵（Cross Entropy，CE）、边缘强度（Edge Intensity，EI）、标准差（Standard Deviation，SD）以及空间频率（Spatial Frequency，SF）。AG 反映图像的清晰度和边缘信息，值越大意味着图像的边缘和细节更加清晰；CE 反映图像间的差异，值越小代表融合图像和源图像越接近，保留的细节越多；EI 反映图像的信息量和复杂度，值越大表示图像中的细节纹理信息更加丰富；SD 反映图像的亮度变化程度，值越大表示图像中的明暗区域差异明显，对比度越高；SF 反映图像的细节和纹理变化频率，值越大表示细节更加丰富，纹理更加清晰［3，19］。因此，AG，EI，SD，SF 越大，CE 越小，融合效果越好。

5 实验结果与分析

5.1 主观评价

图3～图4 分别为TNO 和CVC-14 数据集中的5 组测试集的源图像以及9 种融合方法与文中方法的融合结果。

图3 TNO 数据集上不同方法的融合结果对比Fig.3 Comparison of fusion results of different fusion methods on TNO dataset

图4 CVC-14 数据集上不同方法的融合结果对比Fig.4 Comparison of fusion results of different fusion methods on CVC-14 dataset

总的来说，大部分融合方法都能将红外图像的热辐射信息和可见光图像的细致纹理有效融合到一幅图像上。然而，Bayes 和RTVD 的融合图像较为模糊，HMSD_GF，NSST 的融合结果亮度偏低，CNN，MSID 的融合结果无法突出可见光图像中清晰的细节纹理。GFCE，IVFusion和MDLatLRR 算法取得了较好的融合结果，但在弱光夜视环境下也存在一些缺陷，如在图3 的TNO 数据集图像Img1 中，GFCE 的融合结果对比度较低，无法有效突出人、围栏等显著信息。IVFusion 的融合结果整体亮度太高，MDLatLRR 的融合结果不能呈现图像左下角树叶的细节纹理。本文方法通过DRC 算法提高图3中Img5 可见光图像清晰度的同时，在低频区域引入细微的噪点，使图像整体看起来有细微的纹理，但对整体融合效果的影响较小。该方法在清晰度、对比度和细节处理方面都有较好的提升效果外，还能在一定程度上改善图像中显著目标的突出效果。此外，因红外图像不受弱光环境的影响，相比可见光图像所表达的显著信息较多，从视觉上看，融合图像中含有的红外图像成分更多。

5.2 客观评价

表1～表2 分别为本文方法和对比方法在16对TNO 数据集和6 对CVC-14 数据集上图像融合实验的平均客观评价指标对比，加粗代表最优值，横线代表次优值。由表可知，本方法在TNO和CVC-14 数据集上实验的5 种客观指标AG，CE，EI，SD，SF 都优于对比方法，与对比方法的最优客观评价值相比，AG，CE，EI，SD，SF 分别至少提升了8.04%，16.27%，4.61%，0.14%，16.26%，证明本文方法在图像的清晰度、细节纹理和对比度的处理上都要优于对比方法。

表1 TNO 数据集上融合实验的平均客观评价指标对比Tab.1 Comparison of average objective indexes of fusion results on TNO dataset

表2 CVC-14数据集上融合实验的平均客观评价指标对比Tab.2 Comparison of average objective indexes of fusion results on CVC-14 dataset

5.3 运行时间对比

表3 为不同融合方法在TNO 和CVC-14 数据集中的平均运行时间。表中平均运行时间最快的是MSID 方法，本方法在MSID 的基础上改进了融合规则，加入DRC 增强和对比度增强模块，平均运行时间为0.237 s，排第二，而整体融合效果仅次于本方法的MDLatLRR 和IVFusion 方法运行时间偏长。由此表明，本方法能够实现高质量快速融合。

表3 不同融合方法的平均运行时间Tab.3 Average running time of different fusion methods

5.4 消融实验

为验证MSID 融合的改进作用，以16 对TNO 数据集中的测试集进行消融实验。实验包含3 个部分：（1）MSID+DRC，在多尺度结构化融合中加入动态范围压缩模块；（2）MSID+DRC+RIE，在（1）的基础上改进融合策略，此处RIE 为基于RMSE 系数和IE 自适应优化融合的缩写；（3）MSID+DRC+RIE+EC，在（2）的基础上加入对比度增强模块EC。

消融实验的客观评价指标结果如表4 所示，数据加粗代表最优值。加入DRC 前后，除了指标CE 外，其他4 个指标都要优于没有使用DRC增强的融合结果；加入RIE 前后，除了指标SD 有所下降外，其余4 个指标都有大幅的提升；加入EC 前后的5 个指标均有所提升，证明了改进方法的有效性。

表4 消融实验的平均客观评价指标结果Tab.4 Average objective evaluation index results of ablation experiment

6 结论

本文提出一种改进MSID 融合的红外与可见光图像融合方法。首先，将DRC 增强算法与MSID 方法相结合，有效提取出图像的低频基部和高频细节信息；然后，对低频信息采用基于RMSE 加权的融合策略进行融合，对高频信息先进行初次融合，再采用基于IE 自适应调整权重的方法进行二次优化融合。接着通过MSID 逆变换重构出融合图像；最后，提出一种基于灰度分类的区域像素增强算法以提高融合图像的对比度。在TNO 和CVC-14 数据集上的对比实验结果表明，与9 种对比方法中最优的客观指标值相比，本文提出方法在AG，CE，EI，SD 和SF 指标上分别至少提升了8.04%，16.27%，4.61%，0.14%，16.26%，证明了提出方法的融合图像不仅具有丰富的细节纹理，较高的清晰度和对比度，还能实现红外与可见光图像的快速融合；同时，消融实验也进一步证明了改进方法的有效性。引入的DRC 算法能提高弱光环境下可见光图像的清晰度，但无法有效增强红外图像的质量，为了突出红外图像中的显著信息，后续将着重研究红外图像的显著特征提取及增强方法，尝试将轻量化的深度学习框架与传统方法相结合，以进一步增强红外和可见光源图像的融合效果。