针对多模态图像的自适应引导形态学设计

2023-02-24孙梦迪孙忠贵韩红燕

计算机应用 2023年2期

孙梦迪，孙忠贵，孔旭，韩红燕

（聊城大学数学科学学院，山东聊城 252000）

0 引言

作为一种传统的非线性方法，数学形态学（Mathematical Morphology，MM）［1］建立在严谨的格论和拓扑学理论基础之上，并在图像处理领域有着广泛应用［2-3］。形态学算子起初主要针对二值图像设计，后逐渐被拓展至灰度图像、彩色图像等应用场景［4］。这些算子主要通过一个被称为结构元素的信息子集对输入图像进行探测。腐蚀和膨胀是两个最基本的形态学算子，其他算子，如开、闭运算等往往可由二者组合而成［5］。

传统数学形态学（Traditional Mathematical Morphology，TMM）所使用的结构元素具有空间不变性，即图像中所有像素的结构元素形状和大小完全相同。这意味着，TMM 的结构元素由先验确定，并独立于图像内容。这种不变性使得形态学算子在具备优异计算效率的同时，还能保持一些重要的数学性质，如保序性、附益性等［6-7］；然而，这种不变性也不可避免会带来非自适应性的缺陷，即固定的结构元素往往不能与图像不同区域的具体特征相适应。

为克服传统数学形态学中结构元素不变性所带来的缺陷，近年来，自适应形态学的相关研究引起了广泛关注［8］。现有工作主要通过考虑输入图像的不同属性，如灰度值（亮度、对比度）、空间距离、噪声等来实现结构元素的自适应性，使其能够应用于不同图像内容。文献［9］中提出了一种基于同质区域的自适应形态学方法，通过包含结构元素原点的连通分量获取空间自适应结构元素。著名的形态学变形虫算法［10］则是基于测地线距离来确定结构元素，能够同时兼顾当前像素点与其结构元素成员的空间距离和灰度差异。文献［11］在文献［10］的基础上通过修正测地线距离度量，对形态学变形虫算法做了进一步推广。通过在结构元素的构建过程中引入排序策略，文献［12］中实现了一个鲁棒自适应形态学（Robust Adaptive Mathematical Morphology，RAMM）并取得了较好效果。

需注意，由于图像在实际获取或传输过程中不可避免会受到噪声影响，故基于图像内容的自适应算法通常对噪声并不鲁棒［13］。为解决这一问题，基于多模态场景的滤波算法在近年成为图像处理领域的一个研究热点。与仅依赖于单幅输入图像的传统方法不同，多模态方法往往借助不同模态且更为可靠的引导图像进行滤波设计。这一类型的滤波器也被称为引导滤波器，其典型代表有联合双边滤波［14］、引导滤波［15］及一些改进算法［16-18］等。与传统滤波算法相比，这类滤波器依然把输入图像中像素的相应输出表示为邻域像素灰度值的加权平均。然而，其权值大小主要取决于引导图像（或引导图像与输入图像的结合）。受益于引导图像的可靠性，这类引导滤波器算法通常较单模态方法具有更强的抗噪性与更好的滤波输出。

基于上述认识，本文提出了一个自适应引导形态学（Guided Adaptive Mathematical Morphology，GAMM），相较于传统的单模态方法，本文借助一幅相对可靠的引导图像定义结构元素，成员更为可信，从而提高了相应算子对噪声的鲁棒性，并最终达到提升算法性能的目标。GAMM 的设计过程主要关注以下3 个方面：1）为了实现形态学算子对噪声的鲁棒性，充分考虑输入图像与引导图像的联合信息进行结构元素定义；2）为了使算子对不同图像内容具有自适应性，借助3σ 原则［19］来动态定义结构元素成员；3）通过对结构元素施加对称性约束，从理论上保证了本文形态学算子继承了传统数学形态学的一些重要数学性质，从而使它依然具有严格的理论基础。在跨模态图像去噪、闪光灯图像修复等多个场景的实验均表明了本文算法的有效性。

1 形态学基本理论

1.1 形态学基本概念

一幅图像f在数学上可看成一个由定义域E到值域T 上的映射函数。对于灰度图像而言，E是离散空间Zn的一个子集（n=2），即像素的坐标空间；T 则是相应的灰度空间。具体到灰度图像f，可表示为f：E→T，f∈F(E，T)。其中F(E，T)是由E映射到T 的所有函数的集合。即f把每个像素x∈E（x=(x1，y1)）映射到灰度值t∈T：f(x)=t。又由于灰度值的大小关系为偏序关系，故F(E，T) 构成一个完备格［20］。

在形态学中，结构元素B可以被看作是用于探测图像的“窗口”。其形状和大小根据特定的任务确定，因此需要谨慎设计。事实上，结构元素也可被看作是一个映射函数b∈F(E，T)。根据函数值的不同，可被分为非平坦结构元素和平坦结构元素两类。相对于非平坦结构元素中b(x)不能恒为常数，平坦结构元素的函数值在任意像素坐标均为0，即b(x) ≡0，完全由相应空间范围（定义域）所定义。因此，在不引起混淆的前提下，平坦结构元素B往往也可代指其相应定义域。由于平坦结构元素所定义的形态学算子，能有效避免空间范围与灰度值不同量纲间的混和计算，在实践中被广泛应用［5，7］。本文的形态学设计也是基于平坦结构元素展开的。

传统数学形态学中的两个最基本的操作算子，即膨胀（δ）和腐蚀（ε），由结构元素所确定的邻域像素的灰度最大值和最小值分别定义：

其中B(x)表示以x为原点的结构元素。

其他一些在实际应用中经常使用的形态学算子，如开运算（γ）、闭运算（ψ），往往可看由上述两个基本算子的不同组合进行定义：

1.2 形态学重要性质

数学形态学建立在严格的理论基础上，故具有许多良好的数学性质，其中保序性和附益性尤为重要［7，21-22］。

保序性是指用结构元素B对图像f的腐蚀结果小于等于用同一结构元素所得到的膨胀结果。特别地，若像素x包含在以它原点的结构元素B(x)中，则保序性描述［5］如下：

进一步，基于保序性可进行图像的形态学梯度定义：

梯度ρ可用于边缘提取，在实际中具有重要作用［23-25］。

完备格上的附益性理论在数学形态学中起着举足轻重的作用［26］。膨胀算子δ和腐蚀算子ε满足附益性是指：

式（7）表明，对于给定的一个膨胀算子，有且仅有唯一的一个腐蚀算子与其相对应［27］。事实上，附益性是验证腐蚀和膨胀算子是否被正确定义的常用手段，也是开闭算子具有幂等性的重要理论保证［8］。

2 引导形态学算子

2.1 算法提出

由于成像设备或成像场景的差异，由同一目标所获得的图像往往展现出不同模式，称之为多模态图像。常见的多模态图像有可见光图像、近红外图像、深度图像、闪光灯图像、非闪光灯图像等。由于不同模态的图像通常具有不同的图像信息，将其结合使用能够得到更为丰富有用的图像信息，从而有利于后续的图像处理任务。以闪光灯-非闪光灯图像修复任务为例，图1 给出了本文所提自适应引导形态学（GAMM）的算法流程。设计思想主要体现在多模态输入、自适应结构元素构建以及对称性约束三个方面，分别说明如下。

图1 自适应引导形态学算法流程Fig.1 Flowchart for GAMM

1）多模态输入：受传统引导滤波算法的启发，为使GAMM 中算子对噪声具有鲁棒性，本文在进行结构元素构建时，不但考虑输入图像（非闪光灯图像f），还考虑噪声较少结构信息更为可靠的引导图像（闪光灯图像g）。

2）自适应结构元素构建：本文借助3σ 原则［19］来分别定义不同模态的结构元素成员，从而使其对图像内容具备自适应性。

假设传统数学形态学的结构元素（滤波窗口）中灰度值服从正态分布，结合形态学结构元素设计的具体实际，引入经验参数λ，并用当前像素的灰度值代替分布期望，分别得到在两个不同模态上的自适应结构元素：

其中：wf(x)和wg(x)为图像f和g上以当前像素x为中心且半径为r的矩形滤波窗口；σ为不同滤波窗w(x)中灰度值的标准方差。由于不同滤波窗口中的像素往往具有不同的灰度方差，故不同滤波窗中结构元素成员的选取阈值也会有所不同，从而使结构元素的构建具备了自适应性。不同的λ取值会使整个结构体的构建对噪声展现出不同的鲁棒性。

将上述两个结构元素取交集，得到本文跨模态结构元素(x)的一个初步形式（后将对其施加对称性约束）：

需注意，为使形态学算子具备好的数学性质，其结构元素的构建往往需满足如下两条规则：

①具体像素点的结构元素一旦确定，就不能改变［6-7］；

②任何像素点的结构元素其成员均须满足对称性［7，21］：

由于本文结构元素的定义仅依赖于原始输入图像与引导图像，其显然满足第①个规则。然而，由于不同滤波窗w(x)的方差σ往往不同，这意味着，由式（10）所定义的初步形式(x)尚不能满足第②个规则。

3）对称性约束：本文借助稀疏矩阵的哈达玛积对式（10）所定义结构元素的初步形式(x)施加对称性约束［7］。

假设单幅图像的像素总数为n，则所有以像素xi(i=1，2，…，n) 为中心的自适应结构元素(xi)的成员xj(j=1，2，…，n)可用一个n×n的稀疏矩阵W存储：

其中：WT为W的转置，⊗表示哈达玛积。则由所确定的GAMM 的最终结构元素B如下：

由的定义可知，B满足对称性，即

同时，由式（8）（9）中两个单模态结构元素的初始定义可知，B也满足自包含性，即

算法1 简要给出了本文GAMM 的结构元素构建过程：

算法1 GAMM 的结构元素构建。

输入输入图像f；引导图像g。

参数滤波窗口半径r；经验参数λ。

输出结构元素B。

在上述构建的结构元素B的基础上，得到本文自适应引导形态学（GAMM）的膨胀、腐蚀算子：

类似于传统数学形态学，由其复合可进一步定义开、闭运算等其他算子。限于篇幅，此处不再赘述。

2.2 性质证明

由其定义过程显然能够看出GAMM 的腐蚀和膨胀算子具有跨模态的自适应性。下面定理1 和定理2，则进一步表明这两个算子也同时具备了与传统形态学算子所具备的保序性与附益性。为使理论叙述相对完整，我们给出了这两个定理的相应证明。

定理1保序性。

εB(f) ≤f≤δB(f)；∀f∈F(E，T)

证明

类似可证，f≥εB(f)，∀x∈E也成立。

故εB(f) ≤f≤δB(f)，∀f∈F(E，T)。证毕。

定理2附益性。

3 GAMM算子的性质验证和实验比较及分析

除了上述理论证明，本章对GAMM 算子的数学性质还进行了仿真验证。在3 个不同应用场景，将其与传统数学形态学（TMM）以及文献［12］所提出的鲁棒自适应形态学（RAMM）进行实验效果比较。

3.1 GAMM算子的性质验证

为验证保序性，与文献［21-22］类似，本文采用形态学梯度（即膨胀和腐蚀之间算术差）进行边缘检测实验。通常情况，保序性能够使检测出的边缘较为合理。此处采用文献［14］所提供的图像，如图2 所示，在引导图像（b）的帮助下，对原始图像（a）分别进行膨胀（c）和腐蚀（d）操作，从而计算得到形态学梯度（e）。从主观视觉上可以明显看出物体的边缘。

图2 性质验证Fig.2 Verification of properties

对于附益性的验证，本文也采用类似文献［21-22］中的方法，通过开运算和闭运算的幂等性进行验证，其理论基础是：腐蚀、膨胀算子的附益性是开、闭运算满足幂等性的充分条件［8］。相应的视觉效果见图2（f）～（i）。显然，图像经过1次开、闭运算和10 次开、闭运算在视觉上并无差异。除了视觉效果，式（19）（20）中欧几里得范数度量的差异为0，也从数值上表明了GAMM 的开、闭运算具有幂等性。

3.2 不同场景的比较实验

3.2.1 彩色图像-深度图像去噪

本文选取了3 个不同的应用场景，对本文所提的GAMM与TMM 以及RAMM［12］进行对比实验。具体场景分别为彩色图像-深度图像去噪、闪光灯-非闪光灯图像修复和近红外图像-彩色图像去噪。在参数设置上，为了能够较为全面地进行比较，对于所有的形态学算子，均选取了3 个不同大小的滤波窗口半径，即r=1，2，3。对GAMM，本文经验地设置其参数λ=2。而RAMM 中的参数均采用了原文献［12］的推荐值。在具体的滤波算子上，3 个形态学均采用实际中常用的OCCO（Open Close-Close Open）方法［28］，即取开闭运算和闭开运算的平均作为最终滤波输出。

本文采用文献［29］所提供的图像集进行实验，具体包括6 组常用的彩色-深度图像对（图3）。为了模拟深度退化，比较不同噪声对算法的影响，对原始深度模态分别添加方差δ=10，30，50 的高斯白噪声作为输入图像，并将噪声较少相对可靠的彩色模态作为引导图像。

图3 彩色图像-深度图像测试集Fig.3 RGB-depth image test set

表1 和表2 分别给出了不同噪声水平的6 幅深度图像去噪结果的峰值信噪比（Peak Signal-to-Noise Ratio，PSNR）和结构相似性度（Structural SIMilarity，SSIM）的量化指标。对TMM，当结构元素大小为3×3 时，取得了此场景下的自身最优去噪性能。随着结构元素的增大，其PSNR 和SSIM 值明显下降。通过引入自适应性和鲁棒性，RAMM 取得了相对较好的去噪效果。PSNR 和SSIM 指标除结构元素为3×3 时略低于TMM，在另外两个大小不同（即5×5 和7×7）的结构元素上，量化指标均略优于TMM。通过引入跨模态方法，本文GAMM 能够很好地借助引导图像的可靠性优势，且其算子同时具备自适应、鲁棒性以及良好的数学性质，从而在不同的滤波窗大小，GAMM 较TMM 和RAMM 均能够取得最好的去噪结果，且对不同大小的噪声具有鲁棒性。

表1 彩色图像-深度图像去噪的PSNR结果单位：dBTab.1 Results of PSNR in RGB-depth image denoising unit：dB

以一幅经典Art 图像为例，修复后的视觉效果如图4 所示。对于TMM（图3（b）～（d）），即使是使用大小为3×3 的最小结构元素，依然会对图像的细小结构造成破坏；且随着结构元素的增大，TMM 输出的破坏程度更加明显。对于RAMM，尽管其在理论上较TMM 具有自适应性和鲁棒性，但如图3（e）～（g）所示，但其主观视觉的去噪效果提升并不十分明显。对于本文所提出的GAMM，图3（h）～（j）给出了在使用3 个不同大小滤波窗口情况下的去噪效果，其在主观视觉上均展示出较好的处理结果。甚至当使用大小为7×7 的滤波窗口时，一些细节结构也会得到较好保持。为便于视觉比较，相应局部放大图放置于图像左下角。

图4 彩色图像-深度图像去噪的视觉效果Fig.4 Visual effect of RGB-depth image denoising

3.2.2 闪光灯-非闪光灯图像修复

如图5 所示，本文选取一个常用的闪光灯-非闪光灯场景［14］进行图像修复实验。用闪光灯图像（图5（b））作为引导图像对非闪光灯图像（图5（a））修复。从主观视觉上可以看出，对于TMM（图5（c）～（e）），由于其结构元素固定，不能对不同的图像结构进行自适应感知，使其在一些边缘区域出现过光滑现象，甚至完全模糊。图5（f）～（h）展示了RAMM 的图像修复结果，由于其较好的自适应性和鲁棒性，取得了优于TMM 的视觉效果。得益于引导图像的可靠性，本文提出的GAMM 在3 个不同形态学中依然取得了最好的图像修复效果，具体如图5（i）～（k）所示，相应局部放大图见图像右下角。

图5 闪光灯-非闪光灯图像修复的视觉效果Fig.5 Visual effect of flash-flash-free image restoration

3.2.3 彩色图像-近红外图像去噪

在彩色图像-近红外图像去噪场景［30］下，本文将近红外图像（图6（b））作为引导，对带有噪声的彩色输入图像（图6（a））进行去噪实验，如图6 所示。不同于TMM（图6（c）～（e））所使用的固定结构元素，RAMM（图6（f）～（h））能够根据图像内容改变结构元素的形状，并展现出一定的鲁棒性，从视觉效果上可以看出，其结构保持性能较TMM 有所提升。借助引导图像的可靠信息，本文所提GAMM 在性能上进一步提升。如图6（i）～（k）所示，在所有实验算法中取得了最好的视觉效果。为便于比较，局部放大图也相应给出。

图6 近红外图像-彩色图像去噪的视觉效果Fig.6 Visual effect of NIR-RGB image denoising

4 结语

本文提出一个针对多模态图像的自适应引导形态学，即GAMM。首先，通过采用输入图像和引导图像的联合信息进行结构元素构建，使其算子具有更强的可靠性。其次，类似3σ 原则选取与中心像素点相似的像素作为结构元素成员，使结构元素对不同图像内容具有自适应性。最后，通过对结构元素施加对称性约束，严谨的数学证明和仿真实验均表明，它能够继承传统数学形态学好的数学性质，从而具有了坚实的理论基础。不同多模态场景下的比较实验，均表明了GAMM 的优越性能。