可见光与红外图像结构组双稀疏融合方法研究
2020-05-06姜晓林王志社
姜晓林,王志社
可见光与红外图像结构组双稀疏融合方法研究
姜晓林,王志社
(太原科技大学 应用科学学院,山西 太原 030024)
传统的可见光与红外稀疏表示融合方法,采用图像块构造解析字典或者学习字典,利用字典的原子表征图像的显著特征。这类方法存在两个问题,一是没有考虑图像块与块之间的联系,二是字典的适应能力不够并且复杂度高。针对这两个问题,本文提出可见光与红外图像结构组双稀疏融合方法。该方法首先利用图像的非局部相似性,将图像块构建成图像相似结构组,然后对图像相似结构组进行字典训练,采用双稀疏分解模型,有效结合解析字典和学习字典的优势,降低了字典训练的复杂度,得到的结构字典更加灵活,适应性提高。该方法能够有效提高红外与可见光融合图像的视觉效果,经对比实验分析,在主观和客观评价上都优于传统的稀疏表示融合方法。
图像融合;非局部相似性;结构组;双稀疏模型
0 引言
可见光成像通过捕捉物体反射的可见光信息进行成像,得到的可见光图像目标、场景等的细节清晰,对比度较高,便于人眼视觉观察,但是成像过程易受干扰,对成像效果造成一定的影响。红外成像技术捕捉物体的热辐射信号并将其转化为图像信号,因此对恶劣环境条件的干扰具有较好的抵抗能力;得到的红外图像可以有效区分目标和背景,但通常分辨率较低、纹理信息较差。因此可见光与红外图像具有互补性,将两类图像的有效信息进行融合,能够得到信息全面、视觉效果较好的图像,有助于对目标的定位、分析、跟踪等,从而提高红外探测系统的性能[1-2]。稀疏表示理论为图像融合提供了新的方法,被应用于各类图像融合[3-6],同时在红外与可见光图像的融合中表现出良好的性能[7-9]。传统稀疏表示方法通常存在以下不足之处[10]:首先,传统基于块的稀疏表示方法将图像进行分块,在计算过程中块与块之间是相互独立的,没有考虑块之间的相似性;其次,字典学习是一个大规模、高度非凸的问题,计算复杂度较高。
非局部相似性阐述了图像中不同位置具有相似的纹理结构信息,它是图像的一个重要特征。将这些相似结构中包含的冗余信息运用到图像处理中,能提高图像处理的效果。因此,非局部相似性在图像处理的多个领域都受到了研究者的关注[11-13]。Zhang等[10]受非局部均值去噪滤波的启发,提出组稀疏表示模型,利用非局部相似性构造结构组矩阵,对结构组矩阵进行奇异值分解(singular value decomposition,SVD)及迭代,得到结构组对应的子字典。在图像融合领域,张晓等[14]将组稀疏理论应用于遥感图像融合,通过非局部相似性构造结构组,在组内通过SVD求解子字典及稀疏系数,之后通过通用分量融合框架进行融合,实验结果有效地保留了源图像信息,但是植被的融合效果较不理想。上述方法都是在规定邻域内匹配相似块构造结构组,对结构组进行SVD求解子字典及稀疏系数,结构组与子字典一一对应,在利用子字典对结构组进行稀疏分解时,字典信息只能片面地反映结构组信息。Li等[15]提出非局部稀疏K-SVD字典学习图像融合方法,利用非局部相似性构造结构组矩阵,通过结构组矩阵学习字典,求解稀疏系数,在多种图像的融合中均取得了较好的效果,由于结构组向量化得到的矩阵维度较高,导致字典学习的复杂度增加。稀疏表示字典的性能直接影响稀疏表示的效果,字典通常分为两大类,一个是解析字典[16],另一个是学习字典[8, 17]。解析字典高度结构化,通过对数据建立一种公式化的数学模型,可以快速进行数值实现,但是存在适应性不足的问题;学习字典通过训练样本进行学习,更具有适应性,在实际应用中性能更好,但是模型更加复杂且计算复杂度较高[15]。Rubinstein等[18]提出了双稀疏模型,是一种将分析字典和训练字典相结合的参数化训练方法,该模型结合了两种字典的优势,使得字典表示简单灵活,且具有适应性。Elad等[19]在双稀疏模型的基础上提出一种在线稀疏字典学习方法(online sparse dictionary learning,OSDL),建立新的剪切小波字典作为基字典,采用在线学习方法,进一步降低了字典学习的计算复杂度,提高了字典的适应性及可处理信号的维度。上述字典学习方法在训练样本的选择过程中,忽略了图像的非局部相似性,会造成稀疏编码不准确的问题。
本文将图像的非局部相似性应用到可见光与红外图像融合,寻找图像块对应的相似块,原图像块与它的相似块组成相似组,对相似组采用组向量化方法构造结构组向量,进而构造结构组矩阵;将构造的结构组矩阵与双稀疏模型进行结合,提出可见光与红外图像结构组双稀疏融合方法。该方法训练得到的结构组字典能全面地反映源图像的结构信息,同时相似组内图像块对应相同的字典原子,在增强字典适应性、提高字典表征源图像信息的能力、降低字典训练复杂度的同时,提高了图像的融合性能。
1 结构组与双稀疏模型
1.1 结构组构造
字典训练样本选取及结构组构造过程如图1所示,具体的构造步骤如下:
1)训练样本随机块选取:通过滑动窗技术,从源图像中随机选取个图像块X=[1,2, …,x]。
2)训练样本结构组构造
①相似组构建:对每一个初始图像块x,在大小为×的邻域内,采用欧式距离计算出与x最相似的个图像块。初始块与相似块构成一个相似组g,每个相似组中共有+1个图像块,共得到个图像块的个相似组G=[1,2, …,g]。
图1 训练样本结构组构造
1.2 双稀疏模型
稀疏表示的基本思想是将少数基本信号进行线性组合,对原始信号进行表示[20]。也就是,给定一个冗余的字典∈R×,这个字典包含个维的信号,这些信号是由字典矩阵的列构成的。在字典上,信号∈R可以用=或者≈进行重构。向量∈R为信号利用字典表示的系数。由于字典是冗余的,所以向量并不是唯一的。因此,稀疏模型被作为求解非零分量最少的解向量的一种方法。当忽略噪声时,对信号的求解过程可以用如下的优化问题表示:
当不精确地考虑噪声时,求解过程可以用如下的优化问题表示:
式中:||||0是0范数,求解向量中非零元素的个数,∈R×,∈R×(>)是过完备字典;≥0是允许的误差阈值,预先设定。
OSDL算法采用对字典原子进行顺序更新的字典学习方法,字典学习过程可以表示为:
2 融合方法
本文提出的可见光与红外结构组双稀疏融合方法,利用非局部相似性构造结构组矩阵,通过结构组进行字典训练与稀疏分解。因此在融合前要通过相似组向量化对源图像矩阵进行扩展,融合过程结束后,进行逆变换得到相应的图像块矩阵。融合框架如图2所示,过程如下:
2)训练样本选取及字典学习:对于得到的样本矩阵,采用OSDL方法训练字典,得到稀疏字典。
5)求解融合稀疏系数:结构组向量V1、V2分别对应稀疏系数向量1、2,对得到的稀疏系数向量进行+1等分,得到1()、2()、=1, 2, …,+1,对稀疏系数采取绝对值取大的方式得到融合系数,使得融合图像中能保留更多重要的信息:
3 实验结果及分析
为了验证本文方法的性能,将本文方法与3种方法进行比较,采用“UNcape”、“Kaptein”、“Trees”、“Road”4组可见光与红外图像进行对比融合实验。采用的对比融合方法分别为:基于稀疏表示(Sparse representation,SR)的融合方法、基于自适应稀疏表示(Adaptive sparse representation,ASR)的融合方法、基于联合稀疏表示(Joint sparse representation,JSR)的融合方法。本文方法的参数设置为:①滑动窗大小为15×15像素;②图像块的大小为8×8像素;③相邻块之间的重叠像素为7;④图像块对应的相似块个数为3;⑤算法迭代次数为5。
图2 融合方法总体框架
为了对实验结果准确评价,采用5种评价指标对算法性能进行客观评价。0综合了与人视觉系统相关的亮度失真度、对比度失真度、相关性损失3个因素,对融合图像的失真度进行评价。W反映了源图像向融合图像传递了多少显著信息。PSNR(Peak signal to noise ratio)为峰值信噪比,衡量图像中的噪声水平。E和Q/F分别从局部和整体反映了融合图像对源图像边缘细节信息的融合效果。以上5个评价指标的数值越大,说明融合效果越好。
4组图像的实验结果分别如图3~6所示,每组图中:(a)和(b)分别为可见光与红外图像,(c)、(d)、(e)、(f)分别为基于SR、ASR、JSR及本文方法得到的融合图像。
图3为“UNcape”图像及实验结果,从源图像中可以观察到:可见光图像中,道路、围栏、房屋及树木清晰,不能辨别出人的位置;红外图像中,可以观察到人的位置和清晰的轮廓,但道路及树木的细节信息模糊。SR方法的融合图像边缘、纹理等细节信息模糊,严重失真;ASR方法融合结果中较好地保留了源图像中的细节,但人、围栏和房屋的边缘模糊,有伪影;JSR方法融合结果人的位置及轮廓清晰,图像对比度较高,产生一定程度的失真,围栏和房屋的边缘模糊不清,树木的细节信息融合较差。本文方法图像中的细节信息及边缘清晰,视觉效果较优。
图4为“Kaptein”图像及实验结果,从源图像中可以观察到:可见光图像中,路灯、树木、建筑物及地面是清晰的,但人被树木隐藏,难以辨别轮廓;相比之下,红外图像中,人的位置及轮廓清晰,路灯、树木、建筑物及地面的轮廓可见,但细节模糊。SR方法融合结果较好地保留了源图像中的轮廓信息,但细节信息丢失严重;ASR方法融合结果树木及地面的细节信息较为清楚,但人和建筑物的轮廓模糊;JSR方法融合结果中人的位置及轮廓清楚,图像对比度较高,部分建筑物的细节丢失。本文方法融合结果中人的位置及轮廓清晰,树木、建筑物及地面的细节信息保持较好。
图5~图6分别为“Trees”及“Road”源图像及实验结果,与“UNcape”的实验结果一致:本文提出的方法可以很好地保留源图像的细节信息,得到的融合图像边缘清晰,亮度适中。
表1~表4分别为“UNcape”、“Kaptein”、“Trees”及“Road”融合结果的客观评价指标,表5为4组图像融合结果评价指标的平均值,表中最优结果加粗表示。通过客观评价指标分析,本文提出的方法在对原图像显著信息提取及边缘信息保留上效果突出,且融合图像失真度最低,虽然噪声抑制上表现不突出,但从整体上看,本文提出的方法优于另外3种方法。
图3 “UNcape”图像及实验结果
图4 “Kaptein”图像及实验结果
Fig.4“Kaptein”image and the fusion results
表2 图“Kaptein”融合结果的客观评价指标
表3 图“Trees”融合结果的客观评价指标
表4 图“Road”融合结果的客观评价指标
表5 不同融合方法评价指标的平均值
4 结论
本文提出了可见光与红外图像结构组双稀疏融合方法,该方法将图像非局部相似性与双稀疏模型的优点相结合:首先利用图像相似性构建图像相似结构组,然后利用相似结构组进行字典训练及图像融合;在字典训练过程中,采用双稀疏模型,提高了字典的适应性,字典学习的复杂度减小。通过实验证明,该方法图像融合性能较传统稀疏表示图像融合方法得到了提高,在主观和客观评价上都取得了较好的效果。
[1] MA J Y, MAY, LIC. Infrared and visible image fusion methods and applications: A survey[J]., 2019(45): 153-178.
[2] WANGZ S, YANGF B, PENG Z H, et al. Multi-sensor image enhanced fusion algorithm based on NSST and top-hat transformation[J]., 2015, 126(23): 4184-4190.
[3] Aishwarya N, ThangammalC B. An image fusion framework using novel dictionary based sparse representation[J]., 2017, 76(11): 21869-21888.
[4] CHANGL H, FENG X C, ZHANG R, et al. Image decomposition fusion method based on sparse representation and neural network[J]., 2017, 56(28): 7969-7977.
[5] Kim M, Han D K, Ko H. Joint patch clustering-based dictionary learning for multimodal image fusion[J]., 2016(27): 198-214.
[6] ZHU Z Q, YIN H P, CHAI Y, et al. A Novel Multi-modality Image Fusion Method Based on Image Decomposition and Sparse Representation[J]., 2018(432): 516-529.
[7] WANG R, DU L F. Infrared and visible image fusion based on random projection and sparse representation[J]., 2014, 35(5): 1640-1652.
[8] LIU C H, QI Y, DING W R. Infrared and visible image fusion method based on saliency detection in sparse domain[J]., 2017(83): 94-102.
[9] YIN M, DUAN P H, LIU W, et al. A novel infrared and visible image fusion algorithm based on shift-invariant dual-tree complex shearlet transform and sparse representation[J]., 2016, 226(22): 182-191.
[10] ZHANG J, ZHAO D B, WEN G. Group-based sparse representation for image restoration[J]., 2014, 23(8): 3336-3351.
[11] WU Y, FANG L Y, LI S T, Weighted Tensor Rank-1 Decomposition for Nonlocal Image Denoising[J]., 2019, 28(6): 2719-2730.
[12] Eslahi N, Aghagolzadeh A. Compressive Sensing Image Restoration Using Adaptive Curvelet Thresholding and Nonlocal Sparse Regularization[J]., 2016, 25(7): 3126-3140.
[13] CHEN H,HE X, TENG Q, et al. Single image super resolution using local smoothness and nonlocal self-similarity priors[J]., 2016(43): 68-81.
[14] 张晓, 薛月菊, 涂淑琴, 等. 基于结构组稀疏表示的遥感图像融合[J]. 中国图象图形学报, 2016, 21(8): 1106-1118.
ZHANG Xiao, XUE Yueju, TU Shuqin, et al. Remote sensing image fusion based on structuralgroup sparse representation[J]., 2016, 21(8): 1106-1118.
[15] LI Y, LI F, BAI B, et al. Image fusion via nonlocal sparse K-SVD dictionary learning[J]., 2016, 55(7): 1814-1823.
[16] BIN Y, CHAO Y, GUO Y H. Efficient image fusion with approximate sparse representation[J]., 2016, 14(4): 1650024- 1650039.
[17] WANG K P, QI G Q, ZHU Z Q, et al. A Novel Geometric Dictionary Construction Approach for Sparse Representation Based Image Fusion[J]., 2017, 19(7): 306-323.
[18] Rubinstein R, Zibulevsky M, Elad M. Double Sparsity: Learning Sparse Dictionaries for Sparse Signal Approximation[J]., 2010, 58(3): 1553-1564.
[19] Sulam J, Ophir B, Zibulevsky M, et al. Trainlets: Dictionary Learning in High Dimensions[J]., 2016, 64(12): 3180-3193.
[20] ZHANG Q, LIU Y, S Blum R, et al. Sparse Representation based Multi-sensor Image Fusion for Multi-focus and Multi-modality Images: A Review[J]., 2017(40): 57-75.
Visible and Infrared Image Fusion Based on Structured Group and Double Sparsity
JIANG Xiaolin,WANG Zhishe
(School of Applied Science, Taiyuan University of Science and Technology, Taiyuan 030024, China)
s:In the traditional visible and infrared image fusion based on sparse representation, the analytical and learning dictionaries are constructed by using image blocks, and the atoms of the dictionaries are used to represent the salient features of the image. This method creates two problems. First, the relationships among the patches are ignored. Second, the dictionaries have poor adaptability and are complicated to learn. Aiming at solving these two problems, a visible and infrared image fusion method based on a structured group and double sparsity is proposed in this study. Image blocks are constructed into similarity structure groups by using the non-local similarity of the image. Then, the dictionary is built based on similarity structure groups and a double sparsity model to reduce the complexity of dictionary training, thereby improving the analytical and learning dictionaries. The obtained training dictionary is more adaptable, and the complexity of dictionary training is reduced. The experimental results demonstrate that compared with the traditional sparse representation fusion method, this method can effectively improve the visual effect of the fused image and is superior in terms of both subjective and objective evaluation.
image fusion, non-local self-similarity, structured group, double sparsity model
TP391.41
A
1001-8891(2020)05-0272-07
2019-07-25;
2019-12-24.
姜晓林(1994-),女,硕士研究生,研究方向为图像融合。E-mail:haoxiaolin2@126.com。
王志社(1982-),男,副教授,博士,研究方向为红外图像处理、多模态图像配准和图像融合。E-mail:wangzs@tyust.edu.cn。
山西省高等学校科技创新项目(2017162);太原科技大学博士启动基金(20162004);山西省“1331”工程重点创新团队建设计划资助(2019 3-3);山西省面上自然基金项目(201901D111260)