矩和矩不变量在图像处理和模式识别中的应用综述
2021-09-13舒华忠
舒华忠
(东南大学 计算机学院 影像科学与技术实验室,江苏 南京210096)
从基础学科的生物学、医学、化学、地质学等,到工程领域的机器人控制、遥感、增强虚拟现实等,灰度图像和彩色图像都起着非常重要的作用.所有这些领域都需要通过某种方法来提取、量化和解释它们所包含的信息,这些方法通常涉及图像处理.
尽管图像分析的方法依赖于具体的应用,但在许多问题中,目标不变量的描述对于物体的检测、配准、检索以及更广泛的模式识别都具有重要的意义.它们首先要处理图像的几何变换,如平移、缩放和旋转,甚至更一般的情况如仿射变换.图像模糊是面临的另一个问题,模糊可以由对焦错误、对象或相机运动造成.研究针对图像几何变换和模糊的不变量,长期以来吸引着学者的关注.
一类流行的不变特征构造方法是基于矩函数.正如Ghorbel等[1-2]指出的,图像描述符评估的最重要特性是:1)对某些几何变换的不变性;2)对噪声、模糊、非刚性和小局部变形的稳定性;3)完备性.本文的一个目的是综述模式识别中矩不变量的研究现状.由于矩的计算复杂度高,其快速计算也有诸多的研究,本文将对此做一比较全面的介绍.
彩色图像在实际中的应用起来越多,传统处理彩色图像的方法有2类:一是将其转化为灰度图像,这类方法的不足是丢失了颜色信息;另一类是对彩色图像的每个通道分别进行处理,然后将输出结果进行组合,这类方法没有考虑3个通道的内在关联.要克服传统方法存在的不足,需要找到一种途径,它能够以一种整体的方式同时处理彩色图像的每个像素.本文的另一个目的是介绍基于四元数矩的彩色图像处理方法.有关矩的综述文章和专著,可参见文献[3-10].
本文的组织结构如下:第1节介绍灰度图像矩的定义、不变量构造方法以及精确和快速计算;第2节阐述彩色图像四元数矩的有关理论;最后一节是总结.
1 灰度图像矩
1.1 灰度图像矩的定义对于密度函数为f(x,y)的一幅二维灰度图像,其矩函数的一般定义形式为
式中的φnm(x,y)称为基函数,其选择决定了矩的类型.
1.1.1 几何矩 几何矩是将图像映射至单项式,即φnm(x,y)=xn ym,(n+m)阶的几何矩为
几何矩在图像分析和模式识别中应用最为广泛,这主要得益于它的简单性、不变性,以及低阶矩所具有的几何意义.实际上,零阶矩M00代表灰度图像的质量,一阶矩(M10,M01)表示质心的位置,二阶矩(M20,M11,M02)可用于表征图像椭圆的特性[3].
1.1.2 复数矩 复数矩对应的基函数为
这里j为虚数符号,(n+m)阶复数矩的定义[11]为
上式可以转化为极坐标下的形式
(4)式定义的矩也称为径向矩.
当图像沿逆时针旋转角度φ,即
则旋转前后图像的复数矩具有如下关系
1.1.3 正交矩 如前所述,几何矩是图像f(x,y)在单项式xn ym上的投影.然而,基集{xn ym}不是正交的.因此,就信息冗余而言,几何矩不是最优的.此外,由于缺乏正交性,使得基于几何矩的图像重建是一个病态问题.复数矩也具有同样的问题.为了克服这些不足,Teaguem[12]使用连续正交多项式(如Legendre和Zernike多项式)定义一类新的正交矩.之后,学者们又引入离散正交矩:Tchebichef矩[13]、Krawtchouk矩[14]、Racah矩[15]和dual-Hahn矩[16]等.下面分别予以介绍.
(a)连续正交矩(Legendre矩).Legendre矩的基函数为φnm(x,y)=Pn(x)Pm(y),其中Pn(x)为n阶Legendre多项式,其定义如下
二维灰度图像f(x,y)的(n+m)阶Legendre矩由下式[12]给出因
为Legendre多项式在区间[-1,1]内正交,所以图像f(x,y)可由下式重建
Zernike矩.对于一幅二维图像f(r,θ),其Zernike矩Znm(n表示阶数,m为重复度)的定义[12]为
Zernike矩具有与复数矩类似的性质,也就是说,若f′(r,θ)=f(r,θ+φ),则旋转前后图像的Zernike矩具有如下关系
对上式两端取模,则Zernike矩的模对图像旋转具有不变性.得益于这一性质,Zernike矩在模式识别中得到广泛的应用.其他定义在单位圆内的正交矩还有伪Zernike矩[17]、Chebyshev-Fourier矩[18]和广义的伪Zernike矩[19]等,感兴趣的读者可阅读相关的文献.
(b)离散正交矩.连续正交矩在图像分析和模式识别中获得了广泛应用,但存在以下不足:1)它们都定义在特定区域,需要对图像做相应的变换;2)实际计算中,需要对积分进行离散,会带来离散化误差;3)使用反变换重建图像时,需要进行截断,存在截断误差.为解决上述问题,学者们于21世纪初引入离散正交矩(Tchebichef矩).
对于一幅N×N的数字图像f(x,y),其(n+m)阶Tchebichef矩的定义[13]为
这里~(x)为归一化的n阶Tchebichef多项式,满足如下正交性
(13)式对应的反变换为
其他类型的离散正交矩还包括Krawtchouk矩、Racah矩和dual-Hahn矩等,限于篇幅,本文不一一介绍.
1.2 矩不变量构造方法目标不变量的构造在模式识别中具有十分重要的意义.矩函数在图像处理和模式识别领域获得广泛应用的一个重要原因是因为它们具有一些良好的性能,如对几何变换、图像模糊的不变性.下面分别予以介绍.
1.2.1 几何不变量 在过去的几十年,矩不变量的构造方法得到了广泛的研究.这些方法可分为3类:1)归一化技术;2)间接方法;3)直接方法.众所周知,归一化过程可用来实现不变性.然而,这样的处理会带来不精确性,因为图像的归一化需要重新采样和量化.间接法利用几何矩或复数矩来实现不变性,但其时间开销较大.为了提高计算精度和效率,文献中报道了许多直接算法.
Hu[20]在20世纪60年代提出了构造矩不变量的开创性工作.基于不变代数理论,Hu推导了7个与图像尺度、平移和旋转无关的矩不变量,这些不变量是零至三阶几何中心矩的线性组合.Sadjadi等[21]将Hu的不变矩推广至三维.Liu等[22]提出了构造不变矩的一般框架.Suk等[23]构造了一组针对投影变换的不变矩.前文介绍的复数矩以及定义在单位圆内的正交矩都具有旋转不变性.
正交矩的尺度不变性和平移不变性问题也曾经是一个研究热点.Chong等[24]提出了一种建立伪Zernike矩尺度不变量集的方法,该方法直接基于伪Zernike多项式的性质;文献[25]使用类似的方法来构造Legendre矩的平移和缩放不变量;文献[26]还研究了Zernike矩的平移不变性.Zhu等[27]提出了一种构造Tchebichef矩的尺度和平移不变量的方法.结果表明,文献[24-27]中提出的方法比传统的图像归一化方法和间接方法具有更好的性能.
矩不变量的完备性问题也引起了学者的关注.如果一组不变描述子满足以下性质,则称其为完备的:2个物体具有相同的形状当且仅当它们具有相同的不变描述子集.Flusser[28-29]通过对复数矩进行归一化,构造了一个完整并且独立的旋转不变量集合.Ghorbel等[1]研究了利用复数矩的线性组合构造相似不变量(平移、旋转和缩放)完备集合.Zhang等[30]基于Fourier-Mellin矩,提出了构造完备不变量集合的一种通用方法,该方法很容易推广至其他矩.
仿射变换较平移、缩放和旋转具有更一般的形式,仿射不变矩也因此具有更好的性能.Reiss[31]以及Flusser等[32]分别基于代数不变量和张量理论推导了仿射不变矩.Suk等[33]使用图方法构造仿射不变矩.Liu等[34]提出了一种自动生成仿射不变量的方法.归一化是另一种构造不变矩的方法.仿射归一化方法最早由Rothe等[35]提出.在他们的工作中,使用了2种不同的仿射分解:第一种分解方法包括2种倾斜,各向异性缩放和旋转;第二分解方法由2个倾斜和各向异性缩放组成.Zhang等[36]对这些仿射分解进行了研究,指出这2种分解都会导致一些歧义,并提出了进一步的改进.Pei等[37]对非对称物体提出了仿射归一化方法;Suk等[38]对对称物体进行了处理.Shen等[39]利用广义复矩分析了它们在对称物体识别中的性能.Zhang等[40]采用Legendre矩,提出一种构造具有正交特性的仿射不变量方法.
1.2.2 模糊不变量 由于成像系统大多是不完善的,并且环境条件随着时间的推移而变化,因此获取的图像往往是真实场景的退化版本.在实际应用中,面临的一类重要的退化是图像模糊,它可以由衍射、透镜像差、错误聚焦和大气湍流引起.模糊通常可以描述为一个未知的原始图像与空间不变的点扩散函数的卷积,即
其中,g(x,y)是实际获取的图像,也称为退化图像,f(x,y)为理想图像,h(x,y)是成像系统的点扩散函数,它通常是未知的,*表示线性卷积.
在模式识别中,对模糊图像的处理,有2类方法已被广泛研究:一种是通过两步方法识别物体,即先恢复理想图像,然后对后者应用识别方法;另一种是通过设计一个没有模糊效应的一步解决方案.在前一种情况下,由于点扩散函数通常是未知的,因此图像复原是一个病态问题,需要通过先验知识做一些额外假设.在后一种情况下,找到一组不受模糊影响的不变量是关键.
Flusser等[41]在这一领域做了开创性的工作,他们基于点扩散函数具有中心对称的假设,使用几何矩构造了针对图像模糊的不变量.这些不变量被成功应用于卫星模式识别、模糊数字和字符识别.Flusser等[42]进一步引入了针对图像模糊和旋转变换的组合不变量,在此基础上,Suk等[43]还构造了一组对仿射变换和模糊的组合不变量.模糊不变量还被进一步推广至任意维的情况[44-45].由于正交矩在信息冗余方面优于非正交矩,并且对噪声具有更强的鲁棒性,Zhang等[46]采用Legendre矩,构造了针对图像模糊的不变量,较之前的方法具有更好的性能.Chen等[47]基于Zernike矩,提出了对相似变换和模糊的组合不变量.
1.3 矩的精确和快速计算方法
1.3.1 矩的精确计算 大多数矩函数是以连续形式定义的.以二维图像为例,(1)式中的二重积分通常用二重求和来近似.为了提高精度,Liao等[48]针对几何矩和Legendre矩常用的近似公式,提出了改进,文献[49]还将这一策略应用于Zernike矩.Xin等[50]提出了一种在极坐标系下高精度计算Zernike矩的方法.Kotoulas等[51]使用分段多项式插值来获得更高精确的几何矩.Jacob等[52]提出了一种小波矩的精确计算方法.Sheynin等[53]提出了一种计算由样条曲线边界描述的二维物体几何矩的方法.
1.3.2 矩的快速计算方法 文献中已经报道了许多算法.在早期的工作中,Hatamian[54]对大小为N×N的二维图像使用了只需要O(N2)加法的因果空间滤波器.Zakaria等[55]提出了二值图像的delta方法,这种方法适用于由y线表示的图像.Dai等[56]和Li[57]对其进行了改进.另一些快速算法利用了物体的边界角点[58-60],这类方法仅适用于二值图像,需要O(K)加法和乘法,其中K表示角点的数目.通过扩展Jiang的算法,Li[61]提出了一种计算多面体三维图像几何矩的快速算法.Sheynin等[62]进一步给出了显式计算公式.Tuzikov等[63]提出了一种计算任意维多面体表面矩的通用方法.
另一类快速算法是基于格林公式将二重积分转化为围线积分,以此减少运算量.Li等[64]描述了一种仅需要O(N)次加法和乘法的快速方法.他们的方法虽然有效,但精度不够高.使用离散的格林定理,Philips[65]提出几何矩的一种精确计算方法,但效率略低.Yang等[66]采用精确的离散格林公式,提出一种灰度图像几何矩的高效算法;文献[67]将该方法推广至三维.Spiliotis等[68]提出一种二值图像块表示方法,以此为基础研究了矩的快速计算;Flusser[69]对其进行了改进;Chung等[70]将相关方法推广至灰度图像.
上述算法大多是针对级联系统设计的,Chen[71]首次提出了一种适合于并行实现的矩的计算方法.Liu等[72]针对灰度图像,提出一种仅需要加法运算就可以获得矩值的方法,并且可以并行实现.
针对正交矩的快速计算问题,Mukundan等[73]首先使用格林公式,然后采用迭代方法计算Legendre多项式.Shu等[74]提出了Legendre矩的改进方法,有效提高了精度和计算效率,文献[75]进一步扩展到多面体的Legendre矩计算.Zhou等[76]研究了由y线表示图像的Legendre矩计算问题.Zernike矩的快速计算问题也得到了广泛的研究.Mukundan等[73]提出了一种从正方形到圆形的图像变换来简化计算.Belkasim等[77]使用Zernike多项式的径向和角度展开来加速算法.采用Zernike多项式的递归性质,Gu等[78]研究了一种有效的迭代方法.Wee等[79]提出了一种混合算法来计算Zernike矩.Hwang等[80]利用Zernike基函数的对称性,提出了一种快速准确的计算方法.Chong等[81]研究了一种p-递归方法,该方法使用低阶多项式的组合来推导具有相同重复度q的高阶多项式,以提高计算效率.
离散正交矩的快速计算也受到了人们的关注.使用Tchebichef多项式的对称性质,Mukundan[82]研究了Tchebichef矩的快速计算方法.利用Clenshaw递推公式,Wang等[83]推导了一种适合VLSI实现的Tchebichef矩的递推算法.Shu等[84]采用图像块表示方法,提出了一种有效计算Tchebichef矩的方法.
2 四元数矩
2.1 彩色图像四元数矩的定义
2.1.1 四元数及基于四元数的彩色图像表示 四元数是数学家Hamilton[85]在1843年提出的,它是传统复数的推广.四元数有1个实部和3个虚部,即
其中,a,b,c,d∈R,i、j、k是3个纯单位虚数且满足如下关系
若实部a=0,q称为纯四元数,四元数的共轭和模分别由下式定义:
若f(x,y)为一幅彩色图像,则它的每个像素可用四元数表示为
其中,fR(x,y)、fG(x,y)和fB(x,y)分别为每个像素的红、绿和蓝3个通道的值.
2.1.2 四元数矩及其快速计算方法 彩色图像的四元数矩通常都定义在极坐标内,由(18)式可知,四元数的乘法不具有交换性,因此相应的矩具有2种不同和形式:左边(L)和右边(R),以下用上标标识.给定一幅彩色图像f(r,θ),它的右边四元数矩的一般形式为
其中φn,m(r)为一实值多项式.
表1列举了若干常用的多项式类型,Ω是图像定义域,μ是一个单位纯四元数,它的一种常用选择方式为
且‖μ‖=1.
对于一幅尺N×N的数字图像[86],(22)式可用下式近似得到
需要指出的是,表1中列举了7种不同的径向函数,其中前3种为非正交函数,后4种为正交函数.如果径向多项式是正交的,则图像f(r,θ)可通过下述反变换重建
表1 四元数矩径向多项式的定义Tab.1 Definition of radial polynomials used in the quaternion moments
对应的反变换为
后文将会介绍,借助这个性质,可以构造四元数矩的旋转不变量.
较之灰度图像矩,四元数矩的计算复杂度更高,因此需要寻找有效的计算方法.Chen等[86]提出一种降低计算复杂度的方法,简要介绍如下.
考虑μ=αi+βj+γk的情况,则可将(23)式表示为
这里,Φn,m(fR)、Φn,m(fG)和Φn,m(fB)分别表红、绿和蓝3个通道的矩,即与传统的灰度图像矩一致;Re(x)传统复数x的实部,Im(x)为虚部.
采用上述方法,算术运算量可减少一半,更重要的是,对每个通道的矩,可以通过使用灰度图像矩已有的高效计算方法,进一步提高计算效率.
2.2 四元数矩的不变量构造物体对平移、缩放和旋转等几何变换的不变性,是模式识别中的一个关键特征.本节介绍如何构造一组针对几何变换的四元数矩不变量.以四元数Zernike矩为例来进行说明.
Guo等[87]推导了一组关于平移、缩放和旋转变换的不变量.然而,它们的旋转不变性是通过对四元数矩取模来实现的,这不仅导致了相位信息的丢失,而且只提供了一个实值不变量.Chen等[88]提出了一种构造四元数不变矩集的通用方法,并将其应用于彩色目标识别和模板匹配.下面对这一方法做一介绍.
(a)平移不变性.Suk等[89]采用下式定义了彩色图像的质心(xC,yC)
其中,m0,0(fR)、m1,0(fR)和m0,1(fR)分别表示红色(R)通道的零阶和一阶几何矩,下标G和B分别代表绿色和蓝色通道.
将坐标轴原点置于(xC,yC),则定义的中心矩具有平移不变性.
(b)旋转不变性.设f′(r,θ)=f(r,θ+φ),这里φ表示图像的旋转角度,则有
上式表明,四元数矩的模对图像旋转具有不变性,但取模丢失了相位信息.为此,提出一种新的方法得到旋转不变量.将上述过程运用于左边四元数矩,可以得到
(c)缩放不变性.记f″为图像f缩放后的图像,缩放因子为λ,即f″(r,θ)=f(r/λ,θ),则有以下定理.
定理2设
定理1至3的证明感兴趣的读者可参阅文献[88].
如前所述,平移不变性可通过将坐标原点置于图像的质心得到,因此可以获得四元数矩针对平移、旋转和缩放的不变量.上面介绍的方法可以很容易推广到其他类型的四元数矩.限于篇幅,此处不再赘述.
需要指出的是,Shao等[90]引入了四元数Bessel-Fourier矩,将其相位作为彩色图像的特征描述子,用于彩色图像的物体识别,获得了很高的识别率.限于篇幅原因,本文不做详细介绍.
3 总结
本文在介绍灰度图像矩和彩色图像四元数矩的概念之后,全面阐述了矩的不变量构造方法,为了能够解决实际中需要实时或近乎实时处理的问题,详细介绍了矩的快速算法.需要指出的是,不变矩只能用于解决部分计算机视觉中的问题,如何能够让这一曾经被广泛应用的概念焕发新的活力,需要研究者们付出更多的努力.