NSST域下SPCNN与SR结合的多源图像融合 *
2020-11-30张丽霞曾广平宣兆成
张丽霞,曾广平,宣兆成
(1.天津职业技术师范大学信息技术工程学院,天津 300222;2.北京科技大学计算机与通信工程学院,北京 100083)
1 引言
由于成像设备的成像机理不同,不同设备拍摄的图像是不同的。例如,常用的医学图像计算机断层扫描图像CT(Computed Tomograpy)和核磁共振图像MR(Magnetic Resonance);夜间视觉监控常用的可见光图像和红外图像;自然场景信息采集的多聚焦图像。这些图像之间具有信息的互补性和冗余性。为提升一幅图像的信息量和提高判断的精准度,将2幅及以上的互补图像整合为一幅图像的技术成为当前研究的热点之一,即图像融合技术。图像融合技术是从2幅或多幅信息互补的图像中提取核心内容、摈除噪声,合成一幅细节信息更全、清晰度更高的图像,以适应人眼观察和机器自动分析[1 - 3]。而由不同设备或者不同参数的设备拍摄的具有互补特性的图像统称为多源图像。
多源图像融合最常用的方法为变换域方法,由分解——融合——重构3步完成[4,5]。首先源图像经变换域后分解为低频系数和高频系数。然后,针对低频系数和高频系数分别采用不同的融合策略进行融合。最后将融合后的低频系数和高频系数经逆变换重构成最终的融合图像。具有代表性的图像融合方法有离散小波变换(DWT)、轮廓波变换(Contourlet)等。考虑到平移不变性、多方向和多尺度等特点,非下采样轮廓波变换NSCT(Non-Subsampled Contourlet Transform)和非下采样剪切波变换NSST(Non-Subsampled Shearlet Transform)性能最佳[6]。由于NSCT的计算复杂度高,耗时较长,应用范围受到限制。而NSST是在剪切波变换的基础上提出的,经多方向和多尺度分解,实现了源图像的稀疏表示,克服了NSCT的计算复杂度高的不足,具有计算效率高,无Gibbs效应等优点。目前,基于NSST的图像融合方法已取得了较好的效果,并得到广泛应用[7 - 9]
融合策略是变换域方法的核心,根据某种规则选取源图像的特征并融合。脉冲耦合神经网络PCNN(Pulse Coupled Neural Network)和稀疏表示SR(Sparse Representation)是2种变换域下常用的融合策略。PCNN通过计算和比较每个像素计算点火总次数来选择像素,具备细节提取能力强、目标识别率高等特点[10,11]。SR是在保留图像细节特征的基础上降维,将源图像分解为一组非零原子的线性组合,具有有效保障边缘信息和细节信息完整的特点[12,13]。由此,为进一步提高多源图像的融合质量,本文结合脉冲耦合神经网络与SR的优点,提出了NSST域下自适应参数的SPCNN(Simplified PCNN)与SR相结合的多源图像融合技术。首先,对源图像进行NSST变换,得到一系列高频系数和低频系数;对高频系数采用基于图像特征自动设置参数的SPCNN进行融合;对低频系数采用SR完成融合;最后通过逆NSST变换完成图像融合。
2 基于图像固有特征的参数自适应的简化PCNN
2.1 简化的PCNN模型
传统的PCNN模型是一种强耦合、多迭代的神经网络,包含9个可调节的参数,每个参数的设置都会影响最终的结果,并且每个参数的设置都需要大量的实验。因此,学者改进了PCNN模型,提出了简化的PCNN模型,目的是弱化耦合性,减少参数,缩短运行时间。最常用的简化PCNN模型包括:单连接PCNN、交叉皮层模型和脉冲皮层模型SCM(Spiking Cortical Model)等。其中,脉冲皮质模型已被证明相比其他方法具有更低的计算复杂度和更高的准确率[14]。由此,本文采用了基于SCM的简化PCNN模型SPCNN,定义如式(1)~式(5)所示:
Fij(n)=Sij
(1)
(2)
Uij(n)=e-αFUij(n-1)+Fij(n)(1+βLij(n))
(3)
(4)
Eij(n)=e-αEEij(n-1)+VEYij(n)
(5)
式(1)和式(2)中的Fij(n)和Lij(n)分别为像素位置(i,j)上神经元的反馈输入和连接输入,Nij为以(i,j)为中心的局部区域,n为迭代次数。神经元的输入Sij为外部输入信号。下标ij和kl分别代表2个图像像素坐标,(i,j)为中心像素位置,(k,l)为邻域像素位置。W为连接输入中神经元之间的权重矩阵。VL为连接输入的幅度系数,下标L为连接输入的标识符。式(3)是PCNN的调制系统,称作内部活动项Uij(n),是通过反馈输入Fij(n)和连接输入Lij(n)的耦合而求得的,目的是用来激励神经元内部活动,β为连接强度系数。αF为反馈输入的时间衰减系数,下标F为反馈输入的标识符。神经元的状态分为激活(点火)和抑制2种,是由点火子系统决定的,如式(4)表示。当Uij(n)>Eij(n-1)时,神经元发生点火,即产生了脉冲,Yij(n)为脉冲输出。Eij(n)为阈值输出,受Yij(n)的影响。当发生点火,有脉冲输出时,动态阈值瞬间受衰减系数αE的影响发生递减,并增加一幅度系数VE。其中,αE和VE分别为动态阈值的指数衰减因子和幅值,下标E为动态阈值的标识符。
由式(1)~式(5)可知,式(1)和式(2)共同作用于式(3),将式(1)和式(2)代入式(3),结果如式(6)所示:
Uij(n)=e-αFUij(n-1)+
(6)
由于VL和β仅仅作用于式(6),又由于Chen等人[14]在文献中证明,当VL和β的乘积不变时,VL和β取不同的值不影响结果。所以,将VL和β合并为一个参数,即β′=βVL,来进一步简化PCNN模型。所以,SPCNN参数变成5个可调节参数αF、β′、αE、VE和W。
2.2 SPCNN模型参数的自动设置
由于多源图像的多样性,PCNN设置固定的参数值不能灵活提取图像的特征。所以,为提升融合质量,基于PCNN的融合方法应根据不同的输入图像设置不同的参数值,即利用输入图像的特征来定义参数,将PCNN参数与图像特征紧密结合,实现融合过程与图像特征的联系。
由于SPCNN模型中的每个参数在神经元的行为活动中都各自发挥着独特的作用,本文借鉴文献[14],考虑邻域神经元之间的相互关系,提出了基于图像静态特性自动设定参数的SPCNN模型,即利用输入图像的多个特征值定义SPCNN的参数值,实现参数与图像静态特征的动态链接。参数αF的值直接决定了内部活动项Uij(n)的分布区域,值越大,分布区域越宽,反之越窄。实验证明,αF定义为输入图像的标准差σ的关系值,如式(7)所示:
αF=log (1/σ(S))
(7)
其中,S为输入图像的像素值,σ(S)为输入图像的标准方差。
参数β′为连接强度,决定了某一神经元受外围神经元的影响程度,值越大,影响就越大。由于参数β′的值越大,中心神经元受其邻近神经元的影响就越大,所以,兼顾边缘信息的保留和邻域像素的影响,β′定义如式(8)所示:
(8)
其中,Smax和S′分别为输入图像的最大像素值和归一化的Otsu阈值。αE和VE是动态阈值Eij(n)的2个参数,由公式可知,参数αE越大,SPCNN模型在衰减时刻所捕获的灰度值范围就越大,则图像处理精度就变得越低;而VE决定了发生点火后,阈值Eij(n)的增量,根据输入图像的灰度值范围,推导得出VE和αE的定义如式(9)和式(10)所示:
VE=e-αF+1+6β′
(9)
(10)
考虑到外围神经元的影响,反映中枢神经与外围神经元之间关系的权值矩阵W被定义为相邻神经元之间的欧几里得距离的倒数,其大小设定为3×3,其元素的取值如式(11)所示:
(11)
综上,SPCNN模型的5个参数的自适应设置都是由输入图像的固有特征定义的,反映了神经元的动态特性和图像静态特征之间的相互关系,凸显了不同图像的不同特征,也增强了图像融合方法的鲁棒性和稳定性。
3 稀疏表示
稀疏表示模型是从过完备字典中选取部分原子,采用某种线性组合方式精准刻画图像的结构与特征信息,其目的是降低数据的维度和依赖性。通常,基于稀疏表示的图像融合方法分为3步:首先通过已知图像训练构建过完备字典,接着选择过完备字典中的部分原子线性组合,将源图像变换为单尺度特征向量;然后对特征向量进行活跃级度量和融合;最后重构得到融合结果[15]。稀疏表示的数学模型如式(12)所示:
(12)
其中,x∈RM为原始信号;D∈RM×N(M 式(12)的求解核心为过完备字典构建和稀疏表示模型的选择,也是稀疏表示方法的关键技术。过完备字典相当于原子库,存储训练结果,即原子,是稀疏表示方法的基础。常用的过完备字典获取方法是通过学习算法,例如K-SVD算法、MOD算法等,对样本进行大量训练,构建冗余度较高的字典。此方法不需深入分析所研究的信息的特点与描述方法,实现简单。因此,本文采用K-SVD算法来训练过完备字典。稀疏表示模型从过完备字典中选取部分原子,采用某种线性组合方式精准刻画图像的结构与特征信息,其目的是降低数据的维度和依赖性。 参数自动设置的SPCNN模型与稀疏表示相结合的多源图像融合过程如图1所示。此方法首先假定2幅源图像已完全配准,即源图像IA和IB为2幅预匹配完好的图像。IF为融合后的图像。具体的融合过程是在NSST变换的基础上进行的,主要包括4部分:源图像的NSST分解、低频图像的融合、高频图像融合和融合系数的NSST逆变换。图1中,LA和LB分别为2幅源图像的低频系数,LF为低频融合系数。HA和HB分别为2幅源图像分解的系列高频系数,HF为高频融合系数。MAPL为低频融合决策图,MAPH为高频融合决策图。 Figure 1 Flowchart of the multi-source image fusion method图1 多源图像融合方法流程图 (1)NSST分解。 (2)低频系数的融合。 利用低频系数样本学习训练的过完备字典对低频系数进行稀疏表示,采用系数绝对值取大规则获得融合后的低频系数。具体步骤为: ①采用滑窗技术对低频系数(LA和LB)进行分块,将每一个图像块转换为列向量,然后利用OMP算法和基于低频系数的训练字典计算出稀疏表示系数(aA和aB)。 ②利用系数绝对值取大规则,获得低频系数融合的决策图MAPL。MAPL的初值为零,‖‖1表示L1范式,m表示图像块序号。如式(13)所示: (13) ③利用系数加权融合方法获得aF,如式(14)所示: aFij=MAPLij·aAij+(1-MAPLij)·aBij (14) ④利用LF=MAPLaF,以块为单位重构完整的图像。 (3)高频系数融合规则。 由于PCNN模型的特性,像素灰度值高的神经元的点火周期小于像素灰度值低的神经元。在一段时间内,像素灰度值高的神经元点火总次数要大于像素灰度值低的神经元,所以可以通过比较相同时间段内对应神经元点的点火总次数来判断图像的清晰度。 (15) 借用系数加权融合规则融合高频系数,定义如式(16)所示: (16) (4)NSST逆运算。 为了精准比较,本文所有实验都是在Windows 7操作系统,Matlab 2015b软件上运行的。硬件为Intel(R) core(TM)i3,M330,2.13 GHz处理器,3 GB内存。 为了验证本文方法的有效性,选用了具有代表性的5种融合方法进行性能比较:结合NSCT变换和稀疏表示的图像融合方法NSCT_SR[13]、图像引导滤波融合GFF(Image-Guided Filtering Fusion)[15]方法、交叉双边滤波CBF(Cross Bilateral Filter)[16]方法、多分辨率奇异值分解MSVD(Multi-resolution Singular Value Decomposition)[17]方法和结构相关的图像融合IJF(Iterative Joint Filter)[18]方法。 图2为不同方法对医学图像融合的结果。图2a和图2b分别为同一场景下的不同成像原理获取的医学图像。图2a为骨骼区域CT图像。图2b为软组织区域MR图像。图2c~图2h分别为不同方法融合2幅医学图像的结果。可以看出,相比于MR源图像,MSVD方法的融合图像中骨骼信息出现锯齿状,高亮部分有严重残缺,信息丢失严重。NSCT-SR和CBF的融合结果的骨骼信息中间都出现了大面积灰色区域,高亮局部有明显的信息丢失现象。IJF和GFF融合效果较好,信息较全,但是IJF融合图像的衔接部分清晰度降低。GFF的软组织区域清晰度降低。由此,在灰度一致性方面,本文方法(SPCNN-SR)的效果优于其他5种方法的,取得了较好的结果。 Figure 2 Fusion results of different methods on a pair of medical images图2 不同方法融合医学图像的效果图 图3为不同方法融合红外与可见光图像的结果。图3a和图3b为同一场景下的不同成像原理采集的图像。图3a为可见光图像,主要对场景的空间细节进行采集,如房屋、车等。图3b为红外图像,关注场景中的热源对象,如行人。图3c~图3h分别为不同方法的融合结果。由图3可见,相比于红外图像,CBF融合图像的高频信息丢失,中间出现灰度区域,与源图像差距明显。而MSVD融合图像结果边缘不清晰,有锯齿现象。NSCT-SR、GFF、IJF和本文方法都能够正确显示场景细节和热源对象,但是GFF画面偏暗,亮度信息有丢失。 图4为多聚焦图像融合的结果。图4a为左聚焦图像,图4b为右聚焦图像。图4c~图4h分别为不同方法的融合结果。MSVD方法的融合图像失真严重,出现锯齿状现象。GFF方法的融合图像灰度有少许变化。图5为图4结果的局部放大图,可以看出,CBF融合结果边缘区域模糊,NSCT_SR、IJF和SPCNN 3种方法的融合结果都满足了要求,能够清晰显示2幅源图像的2个聚焦区域,但是本文方法在边缘细节上略优于其他方法,更加接近源图像。 Figure 3 Fusion results of different methods on a pair of infrared and visual images图3 不同方法融合红外与可见光图像的效果图 Figure 4 Fusion results of different methods on a pair of multi-focus images图4 不同方法融合多聚焦源图像的效果图 Figure 5 Local enlargement of fusion results of different methods on a pair of multi-focus images图5 不同方法融合多聚焦源图像的结果局部放大图 为了能够准确、客观地评价融合结果,本文选择了4类评价指标:信息统计方面的标准差(QSD)、信息熵(QEN)和互信息(QMI);特征提取方面的空间频率(QSF)、梯度值(QG)和相位一致性(QP);结构相似性的Piella的指标(QSSIMP);Chen和Blum等人提出的人类视觉的评价指标(QCB)。为了能够更好地体现各评价指标的优势,每种评价指标均根据相关文献设置参数。所采用的评价指标均是值越大,融合图像的质量越高。为了形象直观地展示客观评价结果,本文采用了折线图方法,结果如图6所示。 图6a~图6c为信息统计方面指标折线图。本文方法在标准差(QSD)和信息熵指标(QEN)上都取得了最佳结果,QSD值分别为:医学图像融合75.539 2,可见光与红外线图像融合47.000 3,多聚焦51.580 3。QEN值分别为:医学图像融合6.275 5,可见光与红外线图像融合6.976 9,多聚焦7.354 4。而互信息(QMI)仅在医学图像和可见 光与红外图像融合取得了最佳结果,值分别为:医学图像融合4.753 8,可见光与红外图像融合4.383 8。而多聚焦图像融合最佳方法为NSCT-SR,值为8.293 2。本文方法为次优方法,值为8.140 3。通过不同方法融合多源图像的均值可以看出,本文方法在信息统计方面是最优的。 特征提取方面的评价指标折线图见图6d~图6f。可以看出,SPCNN-SR方法在融合可见光与红外图像时,SF指标取得了最佳值,结果为17.944 1。而医学图像融合中,MSVD方法取得了最佳值,结果为25.523 3,高于本文方法(25.200 1)1.28%。多聚焦图像融合的最佳方法为IJF,值为16.195 3,高于SPCNN-SR(15.776 2) 2.58%。但是,从3种图像的均值来看,SPCNN-SR方法最优,值为19.640 1。在梯度方面,本文方法融合可见光和红外线、多聚焦图像取得了最佳结果。可见光与红外线图像融合的梯度值为0.599 7,多聚焦图像融合为0.733 3。而在融合医学图像时,最佳方法为IJF,值为0.746 6,高于本文方法(0.701 6) 6.027%。对于相位一致性,最佳方法为GFF,分别在医学图像和可见光与红外图像融合取得了最佳值,医学图像融合为0.540 6,可见光与红外图像融合为0.583 4。多聚焦图像融合的最佳方法为NSCT-SR,值为0.896 9。由此可见,在特征提取方面,本文方法需进一步改进。 图6g为结构相似性评价指标的结果。可以看出,可见光与红外图像融合时,最佳方法为SPCNN-SR,评价指标的值为0.845 4。而融合医学图像时,最佳方法为IJF,值为0.840 2。本文方法的结果为次优值(0.838 5),两者之间差距较小,仅次于IJF方法0.202%。融合多聚焦图像时,CBF方法为最佳方法,值为0.957 6,高于本文方法(0.957 2) 0.042%。从融合均值可以看出,本文方法为最佳方法,值为0.880 4。 人类视觉方面的评价指标折线图如图6h所示。可以看出,在融合3种不同源图像时,本文方法都取得了最佳结果,值分别为:医学图像融合为0.633 8;可见光与红外图像融合为0.629 6;多聚焦图像为0.772 2;均值为0.678 53。次之的方法为IJF,均值为0.678 47。 由此可见,本文方法在信息统计、结构相似性以及人类视觉方面都取得了最佳结果,而在特征提取方面,SPCNN-SR为次优方法。总体来看,本文方法适合于多源图像的融合。 Figure 6 Average values and objective assessments of different fusion methods for fusing different images图6 不同方法融合不同图像的不同客观评价结果及均值 图7为不同融合方法融合不同图像的平均运行时间。其中,TM为不同融合方法融合医学图像的时间,TIV为不同融合方法融合红外与可见光图像的时间,TMF为不同融合方法融合多聚焦图像的时间,TAVE为不同融合方法融合所有图像的平均运行时间。 可以看出,本文方法的运行时间较长,主要原因是稀疏表示和SPCNN的运算都较为耗时。下一步工作是进一步优化本文方法,提高运行效率。 Figure 7 Average running time of different methods for fusing different images图7 不同方法融合不同图像的平均运行时间 本文从多源图像的多样性、冗余性和互补性的角度,提出了利用图像的固有特征来自动设定参数的SPCNN模型。结合稀疏表示的特性,提出了NSST域下多源图像融合的方法SPCNN-SR。首先,源图像经NSST多尺度多方向分解后形成低频系数与高频系数。由于高频系数包含了图像的细节信息,为保证融合图像的清晰度,采用了图像静态特征自动设置参数的SPCNN模型实现各系数的点火,然后通过点火总次数的比较完成融合。而为保证低频系数细节信息的完整性和边缘信息的准确性,采用了稀疏表示方法完成融合。最后通过逆NSST重构融合图像。实验结果表明,本文方法的融合结果符合人眼视觉感知系统,融合的对比度、局部细节提取等方面取得了较好的结果,优于其他对比方法。但是,本文方法的运行效率较低,需进一步改良。4 融合过程
4.1 融合方法的框架
4.2 具体融合过程
5 实验结果及其分析
5.1 实验设置
5.2 主观视觉评价
5.3 客观指标评价
5.4 运行时间评价
6 结束语