结合斜变换与方差的图像聚焦测度

2021-09-01郭立强

光学精密工程 2021年7期

郭立强，刘恋

（1. 淮阴师范学院计算机科学与技术学院，江苏淮安 223300；2. 淮阴师范学院物理与电子电气工程学院，江苏淮安 223300）

1 引言

自动聚焦技术在面阵、线阵相机、电子显微镜、消费数码、机器人技术以及工业影像测量领域均有着广泛的应用［1-6］。它决定了所生成的图像是否清晰，在成像设备中起着关键的作用。自动对焦的关键环节是设计聚焦测度，用于评估当前所获取图像的清晰度。以消费数码领域的单反相机为例，镜头中的步进电机驱动变焦距光学镜头组件实现连续变焦，CMOS 成像传感器会获取到不同焦距的一组图像，通过计算每一幅图像的聚焦测度来评估图像清晰度，以此来确定最佳焦距。

20 世纪80 年代，研究人员致力于聚焦测度的研究。早期的聚焦测度比较研究由Groen 等人完成［7］，他们分析了典型的基于差分的聚焦测度算法，包括绝对梯度聚焦测度、阈值梯度聚焦测度和平方梯度聚焦测度等。这些方法本质上是设计一个3×3 的梯度模板，用这些模板来遍历整幅图像，最后将遍历结果进行累加求和并作为图像的清晰度指标。基于这些方法，进一步对基于差分的聚焦测度进行改进，人们提出了一系列的聚焦测度，包括高斯导数聚焦测度［8］、能量梯度聚焦测度［9］和全变差聚焦测度［10］等。上述聚焦测度的核心思想是提取图像的边缘信息，并进行累加求和，边缘信息数值越大，图像越清晰。此外，还有基于统计学的方法，即从统计学的角度来计算图像的清晰度指标。Zeder 提出了基于权重直方图的聚焦测度［11］并应用于高通量电子显微镜的自动聚焦。Wee 等人通过图像特征值的求解来实现图像清晰度的建模，并构造了基于奇异值分解的聚焦测度［12］。刘满华等人将模糊集理论与图像的信息熵相结合，提出了模糊熵聚焦测度［13］。夏晓华等人提出了基于索贝尔梯度与信息熵相结合的聚焦测度［14］。李阳等人提出了基于内积能量的聚焦测度［15］。Ahmad 等人构建了基于颜色差异性的聚焦测度［16］。

实际上，基于统计学的方法与基于差分的方法均是在图像的空域进行聚焦测度的计算。另外一大类聚焦测度算法是在图像的变换域（即频域）上实现聚焦测度的构建。文献［17］中给出了基于小波变换的聚焦测度，将图像用小波系数进行表征，然后取对数能量，最后对水平、垂直和对角线方向的对数能量进行加权平均来构造聚焦测度。文献［18］使用四元数小波变换来处理图像并得到3 个相位信息，最后通过低频系数的相位信息来构建聚焦测度。除了小波变换外，离散余弦变换也被用于构造聚焦测度［19-20］。Mahmood 等人提出基于短时傅里叶变换的聚焦测度［21］，通过选择窗函数宽度（与频率相关）并计算短时傅里叶变换的高频系数能量之和来构建最优聚焦测度。

现有的聚焦测度算法主要通过获取图像的清晰度信息（或者是模糊度信息）来实现，因此传统的边缘检测方法成为构建聚焦测度的方法之一。小波变换、傅里叶变换和离散余弦变换等积分变换法，通过在变换域累加图像的高频系数作为聚焦测度，因为在频域高频系数代表着图像的细节信息。然而，上述两类方法存在一个共同的缺点，就是对噪声比较敏感。由于图像噪声的本质也是高频信号，在计算聚焦测度过程中（无论是空域的梯度算法还是频域基于特定积分变换的算法）不可避免地会将噪声作为清晰度信息，最终破坏聚焦测度的单调性（即图像的模糊程度越高，聚焦测度的数值越小）。统计学方法可以在一定程度上克服这一缺点，但其描述图像清晰度的能力还不足。为了解决现有聚焦测度噪声鲁棒性较差的缺点，本文提出了一种基于斜变换与方差的聚焦测度算法。与现有算法相比，该算法不但具有较强的噪声鲁棒性，而且在SDA 指标和离散度指标上均有较大的提升。

2 算法原理

2.1 斜变换

斜变换最初是由日本学者Enomoto 和Shibata 提出并应用于图像编码中［22］。一幅N×N图像F（x，y）的二维离散斜变换表达式为：

其中“S（·，·）”是离散斜变换的核函数。

斜变换是一类离散正交变换，在具体的程序设计中，式（1）可以用如下矩阵乘法运算来实现：

其中Sn是阶数为n的斜变换矩阵（阶数n只能是2 的整数次幂）。该矩阵是酉矩阵，即矩阵的转置就是该矩阵的逆矩阵。2 阶斜变换矩阵S2为：

类似地，采用数学归纳法可以证明：n阶斜变换矩阵可以由n/2 阶斜变换矩阵计算得到，具体如下：

式中：I（n/2）-2代表（n/2-2）阶单位矩阵，OA代表2行（n/2-2）列的零矩阵，OB代表（n/2-2）行2 列的零矩阵，OC代表（n/2）行（n/2）列的零矩阵。an和bn可以用如下递归公式计算得到：

式中n∈{2m，m=1，2，3，…}。

在数学上，一些传统的变换，如傅里叶变换、离散余弦变换以及本节介绍的斜变换，其本质是将被积函数F（x，y）“投影”到积分变换的核函数上。如果被积函数与核函数的结构类似，那么积分变换的数值结果就比较大，也就是变换后的系数能量较为集中，这样便于后续处理。具体到数字图像领域，一幅数字图像大部分区域的亮度（灰度值）是渐变的，也就是离散化的，其相邻像素的值往往呈现出递增或者递减的规律。如果某一积分变换的核函数能够反映出这种递增或者递减的规律，则将图像投影到该核函数上，所得到的绝大多数变换系数的数值较小，能量均集中在低频系数部分。斜变换的核函数（即斜变换矩阵）是具有这种递增和递减规律的。图1 给出了8 阶斜变换矩阵行向量波形图，除了第一行元素的数值均相等外（具体数值为0.353 6），其余7个行向量均呈现阶梯状，这与实际图像像素点灰度值的变化相类似。这也是本文在构造聚焦测度中使用斜变换的首要原因。其次，斜变换属于离散正交变换，正交性去除了变换系数间的冗余，具有能量集中的特性。最后，就是计算复杂度低，能够实时地对图像进行处理。

图1 八阶斜变换矩阵行向量波形图Fig.1 Waveforms of row vectors of 8th-order slant transform matrix

2.2 聚焦测度构造

基于斜变换与方差的图像聚焦测度的具体构造步骤如下：

首先，将图像进行分块处理，分块大小为2 的整数次幂，这样便于后续进行图像的斜变换处理。分块尺寸可以选择8×8、16×16 或者32×32，本文采用32×32 分块。

其次，对每一个子图像进行斜变换处理，得到变换域系数。目前，大多数基于图像变换的聚焦测度的构造过程中，通常使用高频系数［17-21］，因为高频系数通常对应图像的细节信息。但是，基于高频信息的图像聚焦测度又容易受到噪声的干扰。为了使聚焦测度具有较高的噪声鲁棒性，本文选择斜变换的中频系数进行聚焦测度的计算，因为中频系数不易受到噪声干扰。以8×8 子图像为例，其斜变换域中（系数矩阵尺寸也是8×8）中频系数的位置如图2 所示。类似地，我们可以得到32×32 子图像变换域中频系数位置。图2 中标记星号的位置对应着中频系数。计算中频系数的绝对值并进行累加求和，将累加求和结果取平方作为当前子图像的清晰度指标。

图2 中频系数位置示意图Fig.2 Position diagram of mid-frequency coefficients

最后，根据每一幅子图像的清晰度指标来构造整幅图像的聚焦测度。一幅图像越清晰，图像中包含的细节信息越丰富，图像中相应像素点和其周围像素点的灰度值变化越剧烈。也就是说，图像的细节信息越丰富，图像各像素点的灰度值以及各个子图像间灰度值的离散程度也就越大。统计学中使用方差来刻画数据的离散程度。基于以上思考，计算各子图像清晰度指标的方差，并作为整幅图像的聚焦测度FM，即有：

式中：Fi是上一个步骤中所计算出来的各子图像的清晰度指标，N是图像分块的总数。

式（8）给出的聚焦测度是正向指标，也就是说计算得到的数值越大，表明图像中各子图像的离散度（即对比度的反差）越大，图像中所包含的细节信息越丰富，整幅图像越清晰。

3 实验

3.1 对比算法

为了评估本文所提出的聚焦测度的有效性，本文采用经典算法进行了实验对比。二十世纪八、九十年代所提出的一些基于差分的聚焦测度算法的噪声鲁棒性普遍较差，因此不将它们纳入到对比实验中。对比算法均是近十年的一些经典算法，分别是基于奇异值分解（Singular Value Decomposition，SVD）的聚焦测度［12］；基于小波变换对数能量加权平均（Discrete Wavelet Transform，DWT）的聚焦测度［17］；基于四元数小波变换相位提取（Quaternion Wavelet Transform，QWT）的聚焦测度［18］；低通滤波与离散余弦变换相结合（Midfrequency Discrete Cosine Transform，MFDCT）的聚焦测度［19］；基于模糊熵（Fuzzy En，FE）的聚焦测度［13］；索贝尔梯度与信息熵相结合（Sobel Gradient and En，SGE）的聚焦测度［14］；基于内积能量（Inner Energy，IE）的聚焦测度［15］；基于离散余弦变换系数重组（Reorganized Discrete Cosine Transform，ReDCT）的聚焦测度［20］；基于颜色差异性（Color Difference，CD）的聚焦测度［16］。

3.2 评估指标

一般而言，聚焦测度应具有单调性、噪声鲁棒性、较大的数值区间以及较低的计算复杂度。其中，单调性是指聚焦测度的数值与图像模糊程度间呈单调关系。图像的模糊程度越大，对应的聚焦测度值越小；图像越清晰，对应的聚焦测度值越大。

噪声鲁棒性是指聚焦测度能够抵御一般的噪声影响。在噪声条件下，大多数聚焦测度的单调性会被破坏，这种条件下会导致聚焦不准。例如，在夜间低对比度条件下，CCD 或CMOS 传感器在成像过程中电子噪声更多，这也是为什么在夜间拍摄照片时相机的自动聚焦功能并不好用。本文采用文献［20］中所提出的清晰度检测能力（Sharpness Detection Ability，SDA）来评估噪声条件下不同聚焦测度算法的有效性，该指标的计算公式如下：

式中：FMi代表第i幅模糊图像的聚焦测度，σi代表相应图像的高斯模糊标准差。SDA越大，表明相应的聚焦测度性能越好。

较大的数值区间是指图像在不同的模糊程度下所对应的聚焦测度应该具有较大的区分度，即不同焦距下获取的图像聚焦测度的离散度要大，这样自动对焦算法能够准确地定位于极值点（也就是合焦）。本文采用“s/μ”来量化离散度，其中s和μ分别代表一系列模糊图像聚焦测度的标准偏差和均值。s/μ的数值越大，表明相应聚焦测度的离散度越好。

计算复杂度低是指聚焦测度算法的复杂程度要低，便于实际的工程应用。

3.3 基本实验

本实验主要测试噪声对聚焦测度的影响，具体步骤如下：首先将清晰的图像进行模糊处理，来模拟不同焦距下的图像，如图3 所示。模糊参数σ取0.25，0.5，0.75，…，3，一共生成12 幅不同模糊程度的图像。图3 是不同模糊程度的图像，σ越大，图像越模糊。

图3 模糊图像序列Fig.3 Defocused image sequence

图4 是无噪声条件下各个聚焦测度的曲线图，从该图可以看出，在没有噪声的条件下所有的聚焦测度都有较好的单调性。对于聚焦测度的数值离散化指标而言，在上述聚焦测度中，基于SVD 的聚焦测度和基于IE 的聚焦测度的离散度较低。基于DWT 的聚焦测度、基于QWT 的聚焦测度、基于FE 的聚焦测度和基于CD 的聚焦测度的离散度较好。基于SGE 的聚焦测度、基于离散余弦变换的聚焦测度（MFDCT 和ReDCT）和本文所提出的聚焦测度的离散度最好。

图4 无噪声聚焦测度曲线Fig.4 Curves of focus measure without noise

然而，当图像中含有噪声时，相应的聚焦测度曲线会发生较大的变化。对12 幅不同模糊程度的图像分别加入2%的高斯随机噪声、2%的椒盐噪声以及2%的冲击噪声后再次计算聚焦测度，实验结果如图5～图7 所示。

图5 2%高斯噪声聚焦测度曲线Fig.5 Curves of focus measure with 2% Gaussian noise

图6 2%椒盐噪声聚焦测度曲线Fig.6 Curves of focus measure with 2% salt & pepper noise

图7 2%冲击噪声聚焦测度曲线Fig.7 Curves of focus measure with 2% speckle noise

从图5 可以看出，高斯随机噪声对聚焦测度性能的影响较大，大多数聚焦测度的单调性被破坏，除了本文算法外，其余9 种算法的数值区间均被压缩，离散度较小。从图6 和图7 可以看出，椒盐噪声和冲击噪声相比高斯随机噪声而言对图像聚焦测度的影响较小。由此表明，无论是高斯随机噪声、椒盐噪声还是冲击噪声，都对图像聚焦测度有着一定的影响。为了进一步分析这种影响的程度，接下来在LIVE 数据库上进一步开展实验。

3.4 基于LIVE 图像数据库的实验

以上是通过定性分析的方法来对比各个聚焦测度受噪声影响的程度。为了深入分析各聚焦测度的性能，本文在经典的LIVE 图像数据库［23］进行实验，并对各聚焦测度进行定量分析。

LIVE 图像数据库有29 幅不同场景的原始图像，对这些图像进行一系列的模糊处理，每幅图像产生12 幅不同模糊程度的图像。然后，对这些模糊图像分别加入2%的高斯随机噪声、2%的椒盐噪声和2%的冲击噪声，并计算聚焦测度。针对上述聚焦测度数值结果分别计算相应的噪声鲁棒性指标SDA 和数值区间离散度指标（s/μ）。

需要注意的是，对于每一幅原始图像均会得到SDA 指标和s/μ指标，为了使分析结果更加客观，本文对同一噪声条件下数据库中的29 幅图像的指标取平均值，结果见表1 和表2。

表1 不同聚焦测度的SDA 评价指标Tab.1 SDA evaluation index of different focus measures

表2 不同聚焦测度的离散度评价指标Tab.2 Discreteness evaluation index of different focus measures

表1 是各聚焦测度的SDA 指标，在添加2%高斯随机噪声下，CD、FE、DWT 和SVD 算法的噪声鲁棒性较弱，MFDCT、QWT、IE、ReDCT 和SGE 算法的噪声鲁棒性相对较好，而本文算法的噪声鲁棒性最好。通过图5～图7 发现，椒盐噪声和冲击噪声对聚焦测度的影响相对于高斯噪声而言较小，SVD 和DWT 算法对这两种噪声较为敏感。这一点通过表1 中的数据得到了验证。在上述对比算法中，DWT 和QWT 均是基于小波变换的聚焦测度，前者主要使用小波系数的能量来构造聚焦测度，而后者基于小波系数的相位信息来构造聚焦测度。这表明基于相位的聚焦测度不容易受到噪声干扰。本文算法在椒盐噪声和冲击噪声条件下的噪声鲁棒性仍是最好的。

表2 是各聚焦测度的数值区间离散度指标。该指标主要表征不同模糊程度或不同焦距条件下所获取图像的清晰度差异性，这种差异性越大表明图像的聚焦测度指标越好。从表2 可以看出，在这3 种类型噪声条件下，SVD、DWT、FE 和CD 的离散度指标较小；MFDCT、QWT、SGE、IE 和ReDCT 的离散度指标较好，其中SGE 算法的指标在这9 种算法中最好。本文算法的离散度指标最好，与SGE 算法相比，本文算法的离散度指标平均提高了125.61%。

3.5 计算复杂度

表3 给出了不同聚焦测度算法处理512×512 和1 024×1 024 分辨率图像的运行时间。其中，MFDCT、SGE 和本文算法的运行时间在一个数量级上，运行时间较短；而SVD、DWT、QWT、CD 和ReDCT 算法的运行时间相对较长，但仍可接受；FE 和IE 算法的运行时间最长，不适合实时聚焦系统。

表3 不同聚焦测度的运行时间Tab.3 Run time of different focus measures

4 结论

本文针对现有聚焦测度噪声鲁棒性差的缺点，提出了基于斜变换和方差相结合的聚焦测度。实验结果表明，本文算法能够有效地克服噪声对聚焦测度数值计算的影响，与现有算法相比，本文算法的SDA 指标和离散度指标均有较大幅度的提升，相比于鲁棒性较好的SGE 平均提高了20.27%和125.61%，并且本文算法的计算复杂度低、运行时间较短，能够满足自动聚焦系统的实时性要求。未来本文提出的聚焦测度有望应用于被动成像系统中。