基于改进Otsu算法的井下行人目标快速定位方法

2022-06-11余善好

黑龙江工业学院学报(综合版) 2022年4期

余善好

(安徽三联学院，安徽合肥 230601)

中国是个以重工业发展为主的大国，为加大生产量，保证国家GDP，将工业推向自动化是必要手段，在大力发展工业的同时，井下作业往往具有事故风险，无法保障人员安全，为此井下人员和设备定位技术在保障煤矿安全生产方面起着至关重要的作用。煤矿行业越来越重视矿井人员的定位技术[1]。为了确保图像的清晰度，井下行人目标的准确定位尤为重要。定位精度直接关系到煤矿的生产效果[2]，且煤矿发展在要求精度的同时也需要加快生产效率，因此如何快速且准确的将井下行人目标进行定位是目前需要研究的问题[3]。

李清泉[4]提出单目视觉的室内多行人目标连续定位方法，构建像素坐标系到世界坐标系的坐标转换模型，并结合卡尔曼滤波和匈牙利算法实现对多行人目标的连续定位与跟踪，实现井下行人目标快速定位。韩江洪[5]等人提出基于深度学习的井下巷道行人视觉定位算法，基于深度学习网络的系统整体结构；其次，搭建目标检测多层卷积神经网络(CNN)，生成自主驾驶机车前方视野范围内行人的二维坐标及边界框的尺寸；再次，通过多项式拟合计算出图像中行人到机车之间的第三维距离；最后，通过真实样本集实施模型训练，实现井下行人目标快速定位。田强[6]等人直接将非线性定位问题转换成井下行人目标位置的加权最小二乘估计问题，并将最小二乘估计分成两步进行求解，首先基于最小二乘准则将元件未发射的信号转化为目标位置函数，同时将代价函数中未发射信号进行消除，其次在凸松弛技术的基础上直接利用半正定规划问题代替代价函数，最终计算出目标图像的位置，实现井下行人目标快速定位。以上三种算法在进行井下行人目标定位过程中没有对井下行人目标进行粗定位，同样未对目标图像进行边缘分割处理，导致图像边缘不清晰，误差过大，存在图像匹配能力差、边缘分割性能差以及定位偏差大的问题。

为了解决上述方法中存在的问题，提出基于改进Otsu算法的井下行人目标快速定位算法。

1 井下行人目标的粗定位以及边缘检测

在利用激光仪器获取图像时，为保证图像清晰需将井下行人目标进行准确定位，因此需要提前对目标进行粗定位以及边缘分割[7-8]。

1.1 井下行人目标的粗定位

对于图像来说，都需要利用最有效的方法大致定位出该区域位置，并将其视为目标区域，粗定位的意义就是获取该目标区域，现今粗定位的最优办法就是模板匹配算法，该算法的原理就是将两组在不同环境下的图像进行比较，留下两组图像中最相似的部分。

模型匹配的效率高低最主要的影响因素就是两组图像的平移个数，因此为提高运算效率，可利用隔点取样方法将准备进行对比的图像尺寸减小，其原理如图1所示。

图1 隔点取样

隔点取样虽可提高运算效率，但同时因为图像梯度值的增大导致图像重要信息丢失，因此需要通过平滑滤波处理获取更多尺度图像，选取高斯滤波方法保证处理后的图像不会出现局部极值点，高斯函数表达式如式(1)所示。

G(xi,yj)=(1/2πσ2)e

(1)

式(1)中，G(xi,yj)代表卷积模板内(xi,yj)相对应的权重值大小，σ代表高斯滤波器的方差。

通过隔点采样处理后的图像可将其中的锯齿现象完全消除，将图像进行高斯平滑以及采样处理后即可利用NCC算法进行图像匹配[9-10]。

NCC算法是通过两图像之间的相关性得出图像相似度从而进行匹配的一种方法，令该算法中相关性为R(i,j)，其波动范围为[0，1]，则相关性R(i,j)的计算方程式如式(2)所示。

(2)

式(2)中，E(T)代表模板图像的均值，T代表模板图像，Si,j代表准备匹配的图像，E(Si,j)代表Si,j的平均数值，s代表原始图像的灰度分割阈值，t代表相邻图像的灰度分割阈值。

利用式(2)计算出两图像中相似度最大的匹配点进而完成匹配，即提取出在范围[0，1]中相关性最大的点完成匹配。

1.2 基于改进Otsu算法的图像边缘分割

图像的边缘分割也叫边缘检测，这是一种处理图像清晰度的手段，其目的是将图像边缘清晰化，提取图像边缘点，为保证处理图像过程中无其他噪声进入图像，选用Otsu算法进行图像分割，它是通过原始图像以及相邻图像生成二维直方图[11]。

假设原始图像为f(x,y)，相邻平滑图像为g(x,y)，令原始图像的大小为M×N，原始图像以及相邻图像的灰度值大小均为L，进而生成二维直方图，则二维连接概率密度表达式如式(3)所示。

(3)

式(3)中，fij代表原始图像f(x,y)内像素点灰度值i和相邻图像像素点平均灰度j可匹配到相同位置的像素点数量，L代表两图像的灰度值，其中i≥0，j≤L-1。

相邻平滑图像g的灰度等级的计算公式如式(4)所示。

(4)

式(4)中，g(m,n)代表灰度等级，k代表相邻图像像素点中为正方形区域的宽度值。

若利用阈值s和t对图像进行分割，划分成背景和目标图像两部分，则在整幅图像中目标图像和背景各占图像大小的表达式如式(5)所示。

(5)

式(5)中，ωb代表背景所占整幅图像比例，ωo代表目标图像所占整幅图像比例，且ωo+ωb=1。

因此得出背景与目标图像相对应的均值矢量表达式如式(6)所示。

(6)

式(6)中，μ0代表背景相对应的均值矢量，μb代表目标图像相对应的均值矢量，Pij代表二维连接概率密度值。则整幅图像的均值公式如式(7)所示。

(7)

此时可根据离散度矩阵对图像进行处理，在背景与目标图像的均值和所占图像比例得出离散度矩阵的公式如式(8)所示。

σB={ωo[(μo-μ)(μo-μ)]+

ωb[(μb-μ)(μb-μ)]}

(8)

式(8)中，σB代表图像的离散度。

利用σB的迹计算目标图像以及背景与目标之间距离，其表达式如式(9)所示。

tr(σB)=[ωb[(μb2-μ1)2+(μb1-μ1)2]+

ωo[(μo2-μ2)2+(μo1-μ2)2]]

(9)

式(9)中，tr(σB)代表图像与目标之间的距离。

为保证井下行人目标的精确定位，需保证阈值(s,t)为最优，则需要取tr(σB)的最大值即可，并通过最优阈值将图像进行分割，保证最终获取高精度的边缘图像。

2 井下行人目标的快速定位

进行边缘分割后所获取的图像就是二值图像，为进一步缩小目标图像，可对目标图像进行识别，通过连通区域标记法将同一区域的像素点进行连接[12]，连接后求解出该区域的相应参数，最终根据目标图像属性提取目标图像。将识别出的目标图像进行精确定位，首先将图像的大致轮廓进行拟合，最后提取出其圆心坐标即可实现井下行人目标的定位[13]。

目前最优的图像拟合方法就是最小二乘法圆拟合，假设目标图像为(xi,yi)，拟合的圆心为(xc,yc)，由于最小二乘法圆拟合的原理就是计算出拟合圆心到图像点之间距离平方差[14]，并使得距离平方差f为最小，其表达式如式(10)所示。

(10)

式(10)中，N代表目标图像中点的个数，r代表拟合圆的半径。

对半径进行偏导数计算[15]，得出其表达式如式(11)所示。

r2=(y-y0)2+(x-xc)2

=y2-2ycy+yc2+x2-2xcx+xc2

(11)

假设拟合圆中参数a、b和c的表达式如式(12)所示。

(12)

进而得出拟合圆的曲线方程式[16]如式(13)所示。

x2+y2+ax+by+c=0

(13)

则目标图像中点(xi,yi)到圆心的平方表达式如式(14)所示。

(14)

式(14)中，di代表点(xi,yi)和拟合圆心的距离。

=xi2+yi2+axi+byi+c

(15)

令Q(a,b,c)是δi的平方和，其表达式如式(16)所示。

(16)

根据上述求解出的偏导数得出其极值条件如式(17)所示。

(17)

式(17)中，C、D、E、G和H代表偏导数的极限点，∂代表坐标以及半径的约束条件。根据极值条件得出圆的坐标以及半径，其表达式如式(18)所示。

(18)

式(18)就是需要定位的井下行人目标的坐标以及半径。

3 实验与结果

为了验证基于改进Otsu算法的井下行人目标快速定位算法的整体有效性，分别采用本文所提算法、李清泉[4]提出的单目视觉的室内多行人目标连续定位方法(以下统称为算法一)和韩江洪等人[5]提出的基于深度学习的井下巷道行人视觉定位算法(以下统称为算法二)进行图像匹配能力、边缘分割性能以及定位偏差的测试，测试结果如下。

3.1 井下行人目标定位

随机选取3幅需要匹配的图像与模板进行匹配，其中模板图像的像素是120*120，准备进行匹配的像素分别为380*302，360*260，280*210，利用三种算法对图像进行定位，其实验结果如图2所示。

图2 三种算法的定位对比

所提算法在三种不同像素下均精准定位图像中的井下行人目标，且基本没有误差。算法一只能定位出像素较高的两张图，且误差较大，算法二的定位能力极差，三张实验图没有定位出任何一张图中的井下行人目标。本文所提方法定位能力强的原因是在进行定位过程中先对于井下行人目标进行粗定位，利用隔点取样方法将待匹配图像尺寸减小，进而提高运算效率，减少图像点的平移个数，降低运算误差，从而提高了定位准确性。

3.2 边缘分割性能

边缘分割性能包含边缘分割精度以及边缘检测所需时间。首先对三种算法的边缘分割精度进行测试，随机选取一幅图，为保证算法准确性对三种算法均测试两遍后观察其结果，如图3所示。

图3 三种方法边缘分割结果

由图3可知，算法二对边缘进行分割后目标图像边缘十分不清晰，同时伴有虚化现象，算法一虽强于算法二，但该算法的边缘分割结果仍不理想，且第二遍分割结果过于失真，这种现象极可能导致最终结果出现较大偏差，而本文所提算法分割后的目标图像边缘十分清晰，因为本文所提算法提前对图像进行高斯平滑处理，降低图像中噪声的影响，保证图像的质量，进而提高边缘分割精度。

边缘分割时间也是验证边缘分割性能的重要指标，随机选取6组样本图像进行，在保证其分割精度的情况下，对比三种算法所需时间，其结果如图4所示。

图4 三种算法边缘分割时间

由图4可知，经比较后发现，在相同精度下所提算法是三种算法中用时最短，效率最高的算法，算法一虽强于算法二，但其用时也远远高于所提算法。综上所述，证明本文所提算法的边缘分割性能是三种算法中最优的。

3.3 定位偏差

图5 三种算法的定位偏差

比较井下行人目标定位优劣最直观的指标就是对比算法偏差的大小，随机选取五组完全不相同的样本图像，通过三种算法对井下行人目标进行定位，并与目标实际位置对比，得出三种算法的定位偏差，根据图5可知，所提算法的定位误差最高仅为0.4mm，算法一和算法二的最高定位误差分别为1.25mm和1.4mm，这两种算法的定位误差远远高于本文所提算法，其中最低误差也高于所提算法的最高误差，本文所提算法的偏差之所以可以控制这么小是因为该算法对目标图像边缘进行分割，保证目前图像的完整，进而提高定位准确性，从而降低定位偏差。

结语

井下行人目标的定位对于煤矿行业尤其重要，且必须保证定位的准确程度，因此提出基于改进Otsu算法的井下行人目标快速定位算法，该算法首先对井下行人目标进行粗定位，在此基础上利用Otsu算法将目标图像进行边缘分割，其次对目标进行识别以及精准定位，实现井下行人目标快速定位，解决图像匹配能力差、边缘分割性能差以及定位偏差大的问题，保证工业效率的同时加强工作人员的安全。