多聚焦图像离焦模糊区域的SIFT 特征提取

2024-01-04夏晓华向华涛秦绪芳岳鹏举

光学精密工程 2023年24期

夏晓华，赵倩，向华涛，秦绪芳，岳鹏举

（长安大学工程机械学院，陕西西安 710064）

1 引言

多聚焦图像是指聚焦于同一场景不同深度范围的多幅图像，其特点是图像中的场景由于系统景深限制，只能在某一深度范围内成像清晰，超过该深度范围则成像模糊。利用多聚焦图像通过焦点堆叠和清晰度评价能扩大景深范围和实现场景深度估计，因此多聚焦图像在图像融合［1-3］和三维重建［4-6］等领域中均有应用。

特征提取是多聚焦图像配准、融合和三维重建的基础和前提，它要求特征提取方法不仅能提取图像聚焦清晰区域的特征，还能提取离焦模糊区域的特征，因此对特征提取方法提出了更高的要求。尺度不变特征变换（Scale-Invariant Feature Transform,SIFT）算法利用图像的梯度强度信息实现特征点的检测和描述，提取的特征在图像旋转、亮度变化和尺度缩放中具有不变性，是一种稳定的局部特征，在图像特征提取领域中应用广泛。然而，SIFT 算法对模糊和边缘平滑的图像难以准确提取特征，因此将其应用于多聚焦图像时存在提取的特征点数量较少以及图像特征点易集中于某一区域的问题，在图像聚焦清晰区域特征提取效果好，提取的特征数量较多，但在离焦模糊区域特征提取效果差，提取特征时具有不确定性。目前文献鲜有涉及图像离焦模糊区域特征的提取算法，仅有Liu Yu［7］提出了在多聚焦图像中使用密集SIFT 描述子［8］来解决离焦模糊区域特征提取困难的问题，直接在每个像素点提取局部特征描述子用于图像融合。此外，Sekeroglu Kazim［9］和丁国绅［10］分别改进了SIFT算法，提高了SIFT 算法的特征提取数量，对离焦模糊区域特征提取有促进作用。然而，这些算法虽提取特征数量较常规SIFT 算法明显增多，但图像特征点仍主要集中在图像聚焦清晰区域，在离焦模糊区域特征数量匮乏甚至缺失，使得多聚焦图像间存在局部、少量的公共特征，导致图像特征匹配效果差，严重影响后续图像融合和三维重建质量。为此，本文提出了多聚焦图像离焦模糊区域的SIFT 特征提取方法。该方法首先利用常规SIFT 特征提取方法提取多聚焦图像聚焦清晰区域的特征，再利用光流跟踪提取对应离焦模糊区域的特征，避免了在离焦模糊区域直接提取特征的不确定性，弥补了现有SIFT 特征提取方法的不足。

2 SIFT 特征提取原理及其不确定性

2.1 SIFT 特征提取原理

SIFT 算法对光照、旋转、仿射以及尺度的变化都具有良好的稳定性，是图像处理领域中最著名的提取方法之一。SIFT 特征提取步骤如下：

首先，需要构建图像多尺度高斯金字塔。一个图像的尺度空间L(x，y，σ)定义为变化尺度的高斯函数G(x，y，σ)与原图像I(x，y)的卷积，如式（1）和式（2）所示：

其中：“*”表示卷积，m，n表示高斯模板的维度，(x，y)表示图像的像素位置，σ为高斯核。

将原始图像不断下采样得到多组大小不同的图像，然后在每组图像中使用不同的高斯卷积核不断下采样，得到多层大小相同的图像，相当于每组图像都含有多层图像。

其次，需要精确定位关键点。根据高斯金字塔建立高斯差分金字塔。去除首尾两层图像，将剩下每层图像的各像素点与其相邻的上下两层18 个像素点以及同层的8 个相邻像素点进行比较，若该点在此27 个像素点中是极大值或极小值，则认为该点是候选关键点。

候选关键点是离散空间的极值点，需要通过插值的方法对关键点精确定位。根据泰勒函数性质，对尺度空间函数进行泰勒展开，其表达式如式（3）所示：

对式（3）进行求导并令导数为零可得极值点位置：

将X0'带入式（3）可得插值结果：

若D(X0')大于设定的阈值则被保留，否则被剔除。最后计算主曲率的值，删除曲率阈值范围之外的极值点以降低边缘效应。

最后，需要计算唯一描述关键点的描述子，其可以区分两个不同的关键点。SIFT 算法依据当前关键点所在图像的高斯尺度确定邻域半径，邻域内的像素梯度值和对应的方向如式（6）和式（7）所示：

统计每个方向上的梯度值，将梯度值之和最大的方向作为关键点的主方向，将坐标轴旋转至关键点的主方向上，以确保描述符的旋转不变性。然后，在关键点的4×4 邻域内，每个邻域作为一个种子点，将其梯度平均划分为8 个方向，统计每个方向区间内的梯度值之和，最终形成128维的梯度向量，作为特征点的描述子。

2.2 特征提取的不确定性

如图1 所示的成像系统，当物点P处于聚焦状态时，感光元件位于聚焦平面上，物点P的像为理想像点P'；当物点P处于离焦状态时，感光元件偏离聚焦平面，物点P的像是一直径为δ的弥散圆。图像聚焦区域中的特征点是清晰的，其坐标位置是确定的；图像离焦区域中的特征点是模糊的，其坐标位置在弥散圆范围内是不确定的。

图1 离焦成像示意图Fig.1 Defocused imaging diagram

此外，当物点P处于离焦状态时，其附近近似深度的物点也处于离焦状态，这些物点的弥散圆在P的成像位置产生叠加，进一步增加了图像离焦模糊区域特征提取的不确定性。

因此，在图像离焦模糊区域直接提取特征的坐标，并不一定是物点的实际成像位置，利用这些特征进行图像匹配，容易造成较大的匹配误差。

3 基于光流法的特征提取原理

在图像离焦模糊区域直接提取特征存在较大的不确定性，难以保证特征提取的准确性，但对于多聚焦图像而言，一幅图像的聚焦清晰区域对应其他图像的离焦模糊区域，通过将一幅图像聚焦清晰区域的特征映射至其他图像上，可以获得其他图像离焦模糊区域的特征。在该思路的基础上，本文提出利用光流跟踪建立多聚焦图像聚焦清晰区域与对应离焦模糊区域的映射关系。

光流跟踪建立在亮度恒定、小位移假设基础上，尽管弥散圆分散了物点的亮度，但弥散圆间的叠加效应仍能使像素点的实际亮度与对应聚焦状态时的亮度基本一致，多聚焦图像之间的像素移动多为小位移，基于金字塔的光流跟踪也能解决多聚焦图像大位移像素移动问题，因此多聚焦图像满足光流跟踪的假设条件。此外，多聚焦图像相邻像素具有相似的径向运动，因此多聚焦图像也满足空间一致性。

由亮度恒定和小位移假设可知，两幅多聚焦图像的对应特征应满足：

其中：G(x，y，t) 表示在t时刻采集的图像在(x，y)坐标位置处的灰度值，两幅多聚焦图像对应特征的坐标差为(dx，dy)，dt表示拍摄两幅多聚焦图像的间隔时间。

对式（8）进行一阶泰勒级数展开得：

其中：Gt'dt=dG表示两幅多聚焦图像在(x，y)处的灰度变化量，G'x，G'y表示图像在x，y方向上的梯度。式（9）可进一步化简为：

式（10）有两个未知数dx和dy，根据一个像素点不能对方程进行求解。基于空间一致性假设，利用邻域内的像素信息建立方程组：

记I和J为两幅多聚焦图像，I图像在(u，v)坐标处的像素点与J图像上对应点的坐标差为d=[dxdy]T，在以(u，v)为中心，宽度为Wx、高度为Wy的邻域内，定义损失函数：

损失函数最小值所对应的dx、dy即是所求值。对损失函数求导得：

对GJ(x+dx，y+dy)进行一阶泰勒级数展开，忽略高阶项，带入式（13）得：

其中，φ(x，y)=GI(x，y)-GJ(x，y)。

因此，采用SIFT 特征提取方法提取多聚焦图像中每幅图像聚焦清晰区域中的特征，然后利用式（15）将其映射至其他图像中对应的离焦模糊区域上，实现离焦模糊区域SIFT 特征提取。

若多聚焦图像间存在大位移，采用图像金字塔进行处理，将金字塔底层的大位移转化为金字塔顶层的小位移。假定金字塔的层数为n，令金字塔顶层的初始光流I1=0，记第k(1 ≤k≤n-1)层的初始光流为Ik，利用式（15）计算第k层的光流dk，则第k层的最终光流为Fk=(Ik+dk)，第(k+1)层的初始光流为Ik+1=2Fk。以此类推，则多聚焦图像的最终光流为(In+dn)。

4 实验及结果分析

在实际应用中，通常采用移动镜头、移动成像系统或移动被拍摄物体的方式采集多聚焦图像［2，11］，这种多聚焦图像是未配准的，实验时难以对其特征提取的精度进行评估。在图像融合领域，会利用光场相机获得的已配准多聚焦图像对图像融合算法进行评估，从而避免图像配准对图像融合算法的影响。在配准的多聚焦图像中，对应特征点的坐标是相同的，因此可以利用匹配特征点的欧氏距离评价特征提取的准确性。本实验中，首先利用多聚焦图像融合领域常用的配准图像验证本文提出方法的有效性，然后利用实际采集的未配准多聚焦图像进一步检验本文方法的特征提取效果。

4.1 配准图像验证实验

如图2 所示，实验选用了6 组代表性的配准多聚焦图像，其中第1 组图像、第2 组图像和第3组图像［12-14］的背景分别位于视野左侧、右侧和中间，每组图像中的左图聚焦于背景，右图聚焦于前景；第4 组图像、第5 组图像和第6 组图像是由光场相机拍摄获取的多聚焦图像，其背景分别位于视野左侧、左侧和右侧，每组图像中的左图聚焦于前景，右图聚焦于背景。考虑到SURF（Speeded Up Robust Features）和ORB（Oriented FAST and Rotated BRIEF）是针对SIFT 存在的不足进行改进的算法［15-16］，将SIFT，SURF，ORB和基于DAISY 描述子的SIFT 与本文方法在相同的条件下进行特征提取与匹配，提取的特征用圆点标记，匹配的特征用直线连接，结果如图3 所示。图3（a）～图3（e）分别为SIFT，SURF，ORB和基于DAISY 描述子的SIFT 和本文方法的特征提取与匹配结果。由于5 种特征提取算法阈值代表的含义不相同，为方便对比，设定6 组多聚焦图像提取特征数量均为300，以便在提取相同特征数量条件下对实验结果进行比较。本文方法在提取特征的同时实现了特征的匹配，常规方法特征提取后须通过图像匹配方法进行特征匹配，实验采用暴力匹配和随机抽样一致（RANSAC）算法进行匹配。

图2 实验用配准多聚焦图像Fig.2 Registered multi-focus images for experiments

图3 常规方法与本文方法特征提取与匹配效果对比Fig.3 Comparison of feature extraction and matching effect between conventional and proposed methods

由图3（a）～图3（d）可知，SIFT，SURF，ORB 和基于DAISY 描述子的SIFT 特征提取方法在离焦模糊区域提取的特征数量很少甚至缺失，图3（a）中第2 组图像右图、图3（b）中第2 组图像右图、图3（c）中第1 组图像左图、图3（c）中第2组图像右图、图3（c）中第4 组图像左图、图3（d）中第2 组图像右图、图3（d）中第6 组图像左图的离焦模糊区域仅有1～5 个特征，图3（c）中第2 组图像左图、图3（c）中第3 组图像左图、图3（c）中第6 组图像左图的离焦模糊区域缺失特征。在离焦模糊区域提取的特征数量不足，会导致多聚焦图像能匹配的特征少，这是图3（a）～图3（d）中特征匹配数量少的主要原因。此外，图3（a）～图3（d）中出现了许多能匹配但未匹配成功的特征点对，例如图3（a）第2 组图像、图3（b）第2 组图像、图3（b）第3 组图像、图3（b）第6 组图像、图3（d）第2 组图像中圈出的部分特征未实现匹配，这是由于对应特征在聚焦清晰区域和离焦模糊区域的描述子差异较大，使得SIFT，SURF，ORB和基于DAISY 描述子的SIFT［17］在多聚焦图像中即使提取到了对应的特征也难以实现匹配。对应特征在聚焦清晰区域和离焦模糊区域的描述子差异较大，也会造成特征误匹配，如图3（d）中的第2 组图像所示。

对比图3（a）～图3（d）和图3（e）可知，在具有相同特征数量的条件下，本文方法匹配的特征数量明显高于SIFT，SURF，ORB 和基于DAISY描述子的SIFT 算法。本文方法特征匹配点数量多主要是因为在离焦模糊区域特征提取数量多，具有良好的特征提取效果，并且其匹配的特征未出现如图3（d）中第2 组图像的误匹配，说明本文方法在离焦模糊区域具有良好的特征提取性能。

为验证上述观察结果的准确性，统计了上述实验中本文方法与4 种对比方法的特征匹配数量，结果如表1 所示。由于实验图像为已配准的多聚焦图像，用匹配特征的平均欧式距离表示特征提取误差，计算结果如表2 所示。

表1 本文方法与4 种对比方法特征匹配数量对比Tab.1 Comparison of feature matching quantity between the proposed method and the four comparison methods（pair）

表2 本文方法与4 种对比方法的特征提取误差对比Tab.2 Comparison of feature extraction errors between the proposed method and the four comparison methods （pixel）

由表1 可知，本文方法的特征匹配数量均高于其他4 种对比方法，并且提取的特征均正确完成匹配，说明本文方法在离焦模糊区域提取特征效果好，特征点提取不会受到图像模糊的影响，在离焦模糊区域的特征提取能力优于其他4 种方法。由于本文方法在离焦模糊区域提取的特征来自于对应聚焦清晰区域提取的特征，因此离焦模糊区域特征提取效果主要取决于特征提取方法在聚焦清晰区域的提取效果，与特征类型和图像内容有关，受离焦模糊影响较小。

由表2 可知，常规方法的特征提取误差比本文方法的特征提取误差大。不考虑误匹配出现的异常值，常规方法的误差在0.21～1.71 pixels之间波动，误差数值大，波动范围广，说明离焦模糊增加了图像特征提取的不确定性。表2 显示本文方法特征提取的误差在0.03～0.39 pixels之间波动，其数值比常规方法的误差小，波动范围也小，说明本文方法能有效减少离焦模糊造成的不确定性，能实现图像离焦模糊区域特征准确提取。

因此，本文方法在有效特征提取数量和精度上均优于4 种对比方法，能显著改善多聚焦图像离焦模糊区域的特征提取效果。

4.2 未配准图像验证实验

为进一步验证本文方法的有效性，对移动镜头方式拍摄的两组典型的未配准多聚焦图像进行特征提取和匹配实验，图4 为实验图像，实验结果如图5 所示，图5（a）～图5（e）为本文方法与4种对比方法在相同特征数量条件下的特征提取和匹配结果。在实验图像中，图4 中第1 组图像和第3 组图像为近景拍摄的多聚焦图像，离焦模糊区域与聚焦清晰区域的清晰度相差较小，图4中第2 组图像和第4 组图像为较远距离拍摄的多聚焦图像，离焦模糊区域与聚焦清晰区域的清晰度相差较大。两组多聚焦图像设定的特征提取数量与配准实验保持一致，均为300 个。与4.1节配准图像验证实验一样，常规方法采用暴力匹配和RANSAC（Random Sample Consensus）算法进行匹配。

图4 实验用未配准多聚焦图像Fig.4 Unregistered multi-focus images for experiments

图5 中的实验结果与图3 的实验结果基本一致。由图5（a）～图5（d）可知，4 种对比方法提取的特征大部分位于聚焦清晰区域，少量分布于离焦模糊区域，甚至在图4（c）左右两图的离焦模糊区域几乎提取不到任何特征，这说明4种对比方法在图像聚焦清晰区域的特征提取能力强，在离焦模糊区域的特征提取能力弱，离焦模糊区域少量的特征不足以和对应的聚焦清晰区域大量特征进行匹配，再加上离焦模糊对特征描述子的影响，使得同一特征在聚焦清晰区域和离焦模糊区域的描述子差异较大，导致大部分特征被浪费掉，最终匹配的特征数量远小于提取的特征数量。与之相反，图5（e）中本文方法提取的特征不受离焦模糊影响，在图像聚焦清晰区域和离焦模糊区域均能表现出良好的特征提取能力，特征提取后即实现了特征匹配，因此匹配的特征数量明显高于常规方法匹配的特征数量。

本节采用未配准的多聚焦图像进行实验，不能利用4.1 节配准图像用的欧式距离评价特征提取的准确性，考虑到在多聚焦图像中，场景每处位置对应的聚焦清晰区域和离焦模糊区域分布在不同的图像中，特征匹配建立了聚焦清晰区域与离焦模糊区域的特征对应关系，在没有出现误匹配的前提下，特征匹配数量多说明在离焦模糊区域提取的特征数量多，并能与对应的聚焦清晰区域中的特征实现匹配，说明所使用的特征提取方法在离焦模糊区域具有良好的特征提取能力和特征提取准确性，因此特征匹配数量能够综合反映特征提取方法在离焦模糊区域中的特征提取效果。由于图5 中的特征匹配结果未出现误匹配现象，采用特征匹配数量对特征提取方法进行评价，结果如表3 所示。由表3 可知，本文方法在多聚焦图像中的特征匹配数量明显高于4 种对比方法，说明本文方法在离焦模糊区域具有良好的特征提取能力和特征提取准确性，验证了本文方法的有效性。

表3 本文方法与对比方法匹配特征数量对比Tab.3 Comparison of number of matching features between proposed method and comparison methods（pair）

5 结论

离焦模糊会使特征提取存在不确定性，即在图像离焦模糊区域直接提取的特征坐标，并不一定是物点的实际成像位置，利用这些特征进行图像匹配，容易造成较大的匹配误差。

本文提出了一种多聚焦图像离焦模糊区域的SIFT 特征提取方法，该方法首先提取多聚焦图像聚焦清晰区域的SIFT 特征，再利用光流跟踪提取对应离焦模糊区域的SIFT 特征，避免了在离焦模糊区域上直接提取SIFT 特征的不确定性，其有效特征提取数量和提取精度优于常规方法，显著改善了多聚焦图像离焦模糊区域的特征提取效果。

本文提出的方法能显著改善离焦模糊对SIFT 特征提取的影响，但其特征分布受到图像内容的影响，SIFT 特征容易集中在图像的某一区域内，下一步将研究特征分布均匀、不易受图像内容影响的SIFT 特征提取方法。