基于潜在低秩表示的红外和可见光图像融合

2022-08-23诸葛吴为高云翔王梓萱

红外技术 2022年8期

关键词：红外显著性细节

孙彬，诸葛吴为，高云翔，王梓萱

〈图像处理与仿真〉

基于潜在低秩表示的红外和可见光图像融合

孙彬1,2，诸葛吴为1,2，高云翔1,2，王梓萱1,2

（1. 电子科技大学航空航天学院，四川成都 611731；2. 飞行器集群感知与协同控制四川省重点实验室，四川成都 611731）

红外和可见光图像融合广泛应用于目标跟踪、检测和识别等领域。为了保留细节的同时增强对比度，本文提出一种基于潜在低秩表示的红外和可见光图像融合方法。潜在低秩分解将源图像分解为基层和显著层，其中基层包含主要内容和结构信息，显著层包含能量相对集中的局部区域。进一步利用比例金字塔分解得到低频和高频的基层子带，并针对不同层的特点设计对应的融合规则。利用稀疏表示表达低频基层较分散的能量，设计L1范数最大和稀疏系数最大规则，加权平均融合策略保留不同的显著特征；绝对值最大增强高频基层的对比度信息；而显著层则利用局部方差度量局部显著性，加权平均方式突出对比度较强的目标区域。在TNO数据集上的定性和定量实验分析表明方法具有良好的融合性能。基于低秩分解的方法能够增强红外和可见光融合图像中目标对比度的同时保留了丰富的细节信息。

潜在低秩表示；显著性分解；稀疏表示；图像融合

0 引言

图像融合将来自不同传感器的图像整合得到包含更多有效信息的融合图像，其中红外和可见光图像融合被广泛使用在监控、军事以及人脸识别等领域[1]。红外图像由于依靠物体热辐射进行成像，可以在低光照、烟雾等恶劣情况下捕捉到目标，但分辨率通常较低，且成像会受环境温度等因素的影响。可见光图像在理想的情况下可以得到分辨率较高、细节丰富的高质量图像，但通常受到光照、天气、能见度等影响。利用红外和可见光间互补特性的图像融合，可以充分保留红外图像中显著的目标信息和可见光图像中的纹理细节等背景信息[2]。

图像融合依据处理层次可以大致分为像素级、特征级以及决策级3类[3]，目前主流图像融合算法研究集中在像素级。文献[4]中基于方法论将像素级图像融合算法分为基于多尺度分解、稀疏表示、深度学习、显著性以及混合类型5类。

基于多尺度和稀疏表示的图像融合方法，通常包含分解、融合和重构3部分，不同之处在于多尺度方法一般是解析的固定函数变换，而稀疏表示的方法通过训练得到字典来表达图像中的丰富信息。随着深度学习的发展，Liu Yu等人[5]将卷积稀疏表示方法用于图像融合领域。Ma Jiayi等人将图像融合问题视为一种优化问题[6]，通过博弈尽可能使得融合结果与红外图像相似，且保留可见光中的梯度信息，并系统总结[7]深度学习方法在图像融合中的应用。

基于红外和可见光的差异，研究者提出了基于显著性分层的融合方法。D. P. Bavirisetti等人[8]使用均值和中值滤波结果的差值，度量视觉显著性生成融合系数。Li Hui等人[9]使用潜在低秩表示（latent low-rank representation，LatLRR）分解得到显著层和基层，更好地利用红外图像与可见光图像的互补特性。Zhang Xingchen等人[3]提出一个可见光和红外图像融合数据集，并系统比较了20种开源融合方法的客观指标平均值，其中LatLRR方法在3个指标上达到最优，但显著层采用简单的求和融合，损失了部分对比度和细节信息。

本文针对红外和可见光融合图像目标区域对比度较小、细节保留不足的问题，提出一种基于LatLRR分解的红外可见光图像融合框架。源图像经过LatLRR和多尺度分解得到显著层、基层低频和基层高频，其中显著层包含能量相对集中的局部显著区域，基层低频主要包含能量较为分散的全局信息，基层高频主要包含轮廓、纹理等结构信息。根据分层特点设计对应的融合规则。针对显著层设计突出对比度信息的加权融合规则，以更好保留显著性信息；使用金字塔尺度分解得到基层低频部分，针对基层低频设计基于L1范数和稀疏系数的融合规则，保留源图像不同区域的互补信息；针对基层高频选取绝对值最大保留结构信息。

1 相关理论

1.1 潜在低秩表示

LatLRR是Guangcan Liu等人[10]在低秩表示（low-rank representation，LRR）基础上提出的。低秩表示[11]是一种从观测矩阵中恢复原始矩阵的技术，其基本假设是原始数据满足低秩，将观测矩阵分解为一个低秩矩阵和噪声矩阵，该问题被描述为：

LRR无法提取局部结构信息，而LatLRR通过求解公式(2)的优化问题，可以从原始数据中提取全局结构和局部结构信息。不仅可以将噪声分离出来，还将显著性信息提取出来，作为一个单独的子空间，其问题描述如下：

L式中：l为大于零的常数；为矩阵1范数；X为观察得到的矩阵；XZ为分离出来的基层；LX为提取出来的显著层，E为噪声。从图1中可以看出，显著层包含局部显著区域，是红外和可见光图像融合中重点保留的信息，对融合结果中目标区域的对比度强弱有关键影响；基层由于显著性区域部分能量被分解到了显著层，图像整体亮度下降，主要包含目标整体以及背景细节。

1.2 稀疏表示

稀疏表示基于所有信号都可以被一组原子线性组合近似的假设，原子组成的矩阵被称为字典，且仅利用少数原子可表示，即系数存在稀疏性。稀疏表示的优化式[12]为：

稀疏表示仅适用于低维度向量，因此需要利用滑窗技术对图像进行分块，而融合中常用的“最大L1范数”易受高频噪声的影响，造成空间不一致性，因此稀疏表示方法更适用于处理低频分量[13]。

1.3 多尺度变换

多尺度变换通过尺度分解得到不同分辨率、方向子带图像，并针对子带图像特点设计对应的融合规则。经典的方法包括[14]金字塔变换、小波变换、多分辨率几何变换等。

其中比率金字塔通过相邻两层之间的比率实现尺度分解，能够突出对比度信息。分解和重建过程如公式(4)、(5)和(6)：

式中：RP为比例低通金字塔各层的图像；(,)为有低通特性的窗口函数；G为高斯金字塔第层图像；Expand()为放大算子；C、R为对应层长和宽。重建过程表示为：

2 改进后的融合方法

本文提出的图像融合框架如图2所示，首先利用LatLRR分解得到相应的显著层和基层，并将基层进一步分解为高频和低频部分。以红外图像源为例，分解后得到的各层示意图如图3所示，其中显著层提取到能量较为集中的局部显著区域，表现为亮度和对比度突出的目标区域；基层低频包含图像的主要内容，表现为较平滑的全局信息，而基层高频部分则包含图像轮廓、边缘等细节信息。

图2 提出的算法框架图

图3 各层分解示例

2.1 基层融合

源图像经过LatLRR分解之后得到的红外和可见光基层分别表示为IRbase和VIbase，如图4所示。进一步利用比率金字塔分解将图像基层分解为高频部分IRbase-high和VIbase-high以及低频部分IRbase-low和VIbase-low，较好地保留和增强图像对比度。

2.1.1 基层低频融合

红外和可见光进行融合时，源图像的同一位置区域可能有不同的亮度和对比度。传统方法针对低频部分通常采用加权平均方式，但平均的融合规则对于不同模态的融合容易造成能量的损失。

稀疏表示的方法对低频部分具有良好的表达能力。本文利用稀疏表示对基层低频部分进行融合，并设计利用不同的融合规则加权融合保留不同的显著特征，具体步骤如下：

2）稀疏系数的融合分别采用“最大L1范数”和“最大稀疏系数”融合规则。

①“最大L1范数”以稀疏向量的L1范数衡量特征的显著程度：

②“最大稀疏系数”以稀疏系数的绝对值大小反映了该特征的显著程度：

③对不同融合规则得到两个对应的稀疏系数向量F1和F2进行加权平均，得到融合后的稀疏系数F，即：

图5示意了不同规则下基层图像的融合效果。从结果来看，两者在图像中的目标区域特征保留情况相近，但在背景细节纹理上具有互补性。其中“最大L1范数”取自同一个源图像的图像块，在该例中倾向于保留较亮的细节特征，但损失了一定的对比度。而“最大稀疏系数”将每个原子对应的特征作为一组，选择保留来自两个源图像中更显著的系数对应的原子特征，组合为新的图像块。经过加权融合之后的结果保证图像对比度的同时，保留了丰富的细节。

利用字典得到融合向量F＝F并进行重建得到基层低频分量融合结果base-low。

2.1.2 基层高频融合

基层高频部分包含了图像中的边缘细节，对于比率金字塔分解之后得到的不同尺度高频子带，利用像素绝对值度量活跃程度，并使用绝对最大值的融合规则保留高频细节信息。

2.1.3 基层重建

将融合后的低频分量base-low和高频分量base-high根据公式(6)进行重建，得到融合后的基层图像base。

2.2 显著层融合

显著层包含了各个源图像中能量集中的显著区域，其融合规则会直接影响红外和可见光融合的效果。Li Hui等人[9]指出显著层信息需要没有损失地保留在融合结果中，并利用逐像素加和方式融合，总权重为2。

本文设计基于滑窗的局部方差度量显著性，权重和为2以突出图像源中的局部显著性，具体公式如下：

3 实验结果与分析

3.1 实验设定

实验数据主要源自TNO数据集[15]，包含不同应用场景的10对红外可见光图像对，如图6所示。第一、三行是红外图像，第二、四行是对应的可见光图像。

图5 不同融合规则融合结果

图6 使用的10对源图像

本文选择了8种经典的图像融合算法，分别为ADF（anisotropic diffusion fusion）[16]、CSR（convolutional sparse representation）[5]、TE-MST（target-enhanced multiscale transform decomposition）[17]、FPDE（fourth order partial differential equations）[18]、GF（gradientlet filter）[19]、TIF（two-scale image fusion）[20]、LatLRR（latent low-rank representation）[9]以及MSVD（multi-resolution singular value decomposition）[21]对数据集中的图像进行图像融合，与提出的方法进行定性和定量比较分析。

实验在AMD Ryzen 5 4600H 3.00GHz，16GB RAM的计算机上运行，其中金字塔分解层数为5。

3.2 融合结果及分析

图7为源图像“soldier behind smoke”的各个方法融合结果。红外源图像中包含主要目标以及丰富的背景信息，可见光图像中主要是烟雾。从对比结果中可以看出，ADF，FPDE，GF，MSVD得到的士兵部分边缘细节十分模糊；CSR得到的融合结果目标区域对比度不强；TE-MST完整保留了红外图像中的士兵，但是背景细节和目标区域对比度损失较多；TIF和LatLRR目标区域对比度较强，但背景信息损失较大；本文提出的方法较好地保留了背景细节以及士兵区域的完整信息，且对比度较强。

图8和图9分别为图像“street”和“boat”的融合对比结果。图像“street”，本文方法的融合结果在行人处整体亮度较亮，对比度显著，而在商店周围，则保留了丰富的细节如灯牌上的文字等。对于图像“boat”，ADF、CSR、FPDE、TIF、LatLRR、MSVD和GF等融合结果对比度普遍较低，TE-MST和本文方法得到结果中船与背景对比度较强，同时没有因为显著部分过亮导致船上细节信息的损失，保留了丰富的背景纹理信息。

图7 9种方法在‘soldier behind smoke’上的结果

本文采用EN（entropy）、AG（avgerage gradient）、CE（cross entropy）、SF（spatial frequency）、SD（standard deviation）和EI（edge intensity）6种客观评价指标定量评估各种方法的融合质量[22]。EN度量图像中的信息量；AG表示图像的平均梯度，用于描述图像中细节和纹理的丰富程度；CE为结果与源图像的交叉熵，衡量的是融合之后的图像与源图像的相似程度，CE越小图像间的差异越小；SF描述的是图像在空间上的活跃程度；SD反映图像的对比度；EI度量图像中细节信息多少的客观指标。

表1为图像“soldier behind smoke”、“street”和“boat”9种方法融合结果的客观指标评价结果，表中加粗数值表示该指标下的最优值。图像“soldier behind smoke”客观评价指标中TE-MST和本文方法分别有3个指标最优，与定性分析的结论基本一致。图像“street”所提算法的大部分指标均排名靠前。

图8 9种方法在“street”上的结果

不同客观评价指标在不同源图像上的评价排名上有差异，为了对比TNO中10对图像源的融合效果，表2统计了不同图像对的客观指标平均值。从统计结果来看，提出的融合算法能够保留丰富的图像细节，表现为EN、AG、SF和EI等反映图像特征丰富程度的客观指标排名靠前，在反映融合结果与源图像的相似程度的CE指标上排名次优，在反映图像对比度的SD指标上表现很好，综上分析达到了保留细节的同时增强图像对比度的效果。

表3对比不同算法对不同分辨率源图像进行融合的运行时间，以及它们的均值。其中CSR、LatLRR方法和本文提出的方法由于需要对大量图像块进行稀疏或低秩分解，算法复杂度非常高，运行时间较长。从统计结果来看，以60fps为标准，除了TE-MST、TIF方法外，大部分融合算法在未加速的情况下，均无法达到实时处理，如何在保证融合效果的同时，提升图像融合算法的计算效率，是影响融合算法未来应用的重要因素。

表2 9种方法在10对源图像上的客观指标平均值

表3 9种方法在3种不同分辨率源图像上的运行时间以及平均值

4 结论

红外和可见光图像融合应用中，红外图像通常包含对比度较强的目标信息，而可见光图像包含背景中较丰富的纹理和细节信息。基于多尺度、稀疏、深度学习等融合算法通常采用尺度变换、固定字典或深度特征来表示源图像中的有效信息。本文利用低秩和多尺度分解得到基层低频、基层高频、显著层，分别表达图像中的全局信息、结构和局部显著性。针对各层的特点设计不同的融合规则，其中对比度较低的基层分别采用稀疏表示和比率金字塔处理低频和高频部分；能量相对集中的显著层，设计方差最大融合规则增强局部显著性。在TNO数据集的定性和定量实验分析表明，本文算法保留了较多的图像细节并增强目标区域的对比度。由于基于低秩分解的方法算法复杂度较高，无法达到实时处理的要求，研发快速融合方法满足应用需求将是未来红外和可见光图像融合的重点。

[1] 沈英, 黄春红, 黄峰, 等. 红外与可见光融合技术的研究进展[J]. 红外与激光工程, 2021(9): 1-16.

SHEN Y, HUANG C H, HUANG F, et al. Infrared and visible image fusion: review of key technologies [J]., 2021(9): 1-16 .

[2] 杨孙运, 奚峥皓, 王汉东, 等.基于NSCT和最小化-局部平均梯度的图像融合[J]. 红外技术, 2021, 43(1): 13-20.

YANG S Y, XI Z H, WANG H D, et al. Image fusion based on NSCT and minimum-local mean gradient [J]., 2021, 43(1): 13-20.

[3] ZHANG X, YE P , XIAO G. VIFB: A Visible and Infrared Image Fusion Benchmark[C]//, 2020: 468-478.

[4] CHEN J, WU K, CHENG Z, et al, A saliency-based multiscale approach for infrared and visible image fusion[J]., 2021, 182(4): 107936.

[5] LIU Y, CHEN X, Ward R K, et al. Image fusion with convolutional sparse representation[J]., 2016, 23(12): 1882-1886.

[6] MA J Y, CHEN C, LI C , et al. Infrared and visible image fusion via gradient transfer and total variation minimization[J]., 2016, 31: 100-109.

[7] ZHANG H, XU H, TIAN X, et al. Image fusion meets deep learning: A survey and perspective[J]., 2021, 76(11): 323-336.

[8] Bavirisetti D P, D Huli R. Two-scale image fusion of visible and infrared images using saliency detection[J]., 2016, 76: 52-64.

[9] LI H , WU X J. Infrared and visible image fusion using latent low-rank representation[J/OL] [2018-04-24]. arXiv preprint. https://arxiv.org /abs/ 1804.08992.

[10] LIU G, YAN S. Latent low-rank representation for subspace segmentation and feature extraction[C]//, 2011:1615-1622.

[11] 刘琰煜, 周冬明, 聂仁灿, 等. 低秩表示和字典学习的红外与可见光图像融合算法[J].云南大学学报: 自然科学版, 2019, 41(4): 689-698.

LIU Y Y, ZHOU D M, NIE R C, et al. Infrared and visible image fusion scheme using low rank representation and dictionary learning[J].:Natural Sciences Edition, 2019, 41(4): 689-698.

[12] 王凡, 王屹, 刘洋.利用结构化和一致性约束的稀疏表示模型进行红外和可见光图像融合[J]. 信号处理,2020, 36(4): 572-583.

WANG F, WANG Y, LIU Y. Infrared and visible image fusion method based on sparse representation with structured and spatial consistency constraints[J]., 2020, 36(4): 572-583.

[13] LIU Y, LIU S, WANG Z. A general framework for image fusion based on multi-scale transform and sparse representation[J]., 2015(24): 147-164.

[14] LI S, KANG X, FANG L , et al. Pixel-level image fusion: a survey of the state of the art[J]., 2017, 33: 100-112.

[15] Toet Alexander. The TNO Multiband image data collection[J]., 2017, 15: 249-251.

[16] Bavirisetti D P, Dhuli R. Fusion of infrared and visible sensor images based on anisotropic diffusion and Karhunen-Loeve transform[J]., 2015, 16(1): 203-209.

[17] CHEN J, LI X J, LUO L B, et al. Infrared and visible image fusion based on target-enhanced multiscale transform decomposition[J]., 2020, 508: 64-78.

[18] Ba Virisetti D P. Multi-sensor image fusion based on fourth order partial differential equations[C]//20(Fusion), 2017: 1-9.

[19] MA J Y, ZHOU Y. Infrared and visible image fusion via gradientlet filter[J]., 2020, 197: 103016.

[20] Bavirisetti D P, D Huli R. Two-scale image fusion of visible and infrared images using saliency detection[J]., 2016, 76: 52-64.

[21] Naidu V. Image fusion technique using multi-resolution singular value decomposition[J]., 2011, 61(5): 479-484.

[22] 刘智嘉, 贾鹏, 夏寅辉.基于红外与可见光图像融合技术发展与性能评价[J].激光与红外,2019, 49(5): 123-130.

LIU Z J, JIA P, XIA Y H, et al. Development and performance evaluation of infrared and visual image fusion technology[J]., 2019, 49(5): 123-130.

Infrared and Visible Image Fusion Based on Latent Low-Rank Representation

SUN Bin1,2，ZHUGE Wuwei1,2，GAO Yunxiang1,2，WANG Zixuan1,2

(1.,,611731,;2.,611731,)

Infrared and visible image fusion is widely used in target tracking, detection, and recognition. To preserve image details and enhance contrast, this study proposed an infrared and visible image fusion method based on latent low-rank representation. The latent low-rank representation was used to decompose the source images into base and significant layers, in which the base layers contained the main content and structure information, and the salient layers contained the local area with relatively concentrated energy. The ratio of low-pass pyramid was also adopted to decompose the base layer intolow-frequency and high-frequency layers. The corresponding fusion rules were designed according to the characteristics of the different layers. A sparse representation was used to express the relatively dispersed energy of the low-frequency base, and the rules of the maximum L1 norm and maximum sparse coefficient were weighted averages to retain different significant features. The absolute value of the high-frequency part of the base layer was used to enhance the contrast. Local variance was used for the salient layer to measure significance, and the weighted average was used to highlight the target area with enhanced contrast. Experimental results on the TNO datasets show that the proposed method performed well in both qualitative and quantitative evaluations. The method based on low-rank decomposition can enhance the contrast of the targets and retain rich details in infrared and visible fusion images.

latent low-rank representation, saliency decomposition, sparse representation, image fusion

TP391

1001-8891(2022)08-0853-10

2021-08-20；

2021-09-25.

孙彬（1984-），副教授，主要研究方向为信息融合、图像处理、导航定位。E-mail: sunbinhust@uestc.edu.cn。

四川省科技计划资助（2020YFG0231）；四川省中央引导地方科技发展专项（2020ZYD016）；电子科技大学基于项目的研究生创新培养计划建设项目（XMZ20203-9）。