APP下载

基于内容图像检索的机器人障碍物检测方法

2021-03-23胡文楠

计算机工程与设计 2021年3期
关键词:度量障碍物特征提取

胡文楠

(长春工业大学 应用技术学院,吉林 长春 130012)

0 引 言

机器人障碍物检测[1]需要多个传感器协作完成,在该过程中,如何充分运用软件计算的优势,表征障碍物的特征,减少复杂硬件的需求是一个热门研究方向。机器视觉是一个可行的解决途径,如基于内容的图像检索[2](content based image retrieval,CBIR)。为开发出有效的CBIR系统,必须提取数据库图像的重要特征以表示该类图像,然后通过相似度测量,检索出与目标图像相关的图像,以便后续的信息处理与挖掘。

目前关于机器人障碍物检测的研究,在软件和硬件方面均有一定发展。如Tang等[3]提出一种基于主动式全景视觉的移动机器人障碍物检测,该系统对硬件资源的需求较大。Chen[4]提出一种单目视觉处理方法进行障碍物识别。Wang等[5]提出一种基于过分割方法和机器人正运动学模型的障碍物识别方法。Ding等[6]提出一种机器人自主定位与障碍物检测方法,将检测的障碍物信息插入到环境稀疏特征地图中,达到自主定位和检测的效果。Xiao等[7]通过Kinect摄像机和二维激光雷达,提出了一种低成本的移动机器人障碍物检测方法。Han等[8]提出了一种基于卡尔曼滤波和朴素贝叶斯网络结合的检测与分类方法,采用卡尔曼滤波算法检测视频中的障碍物,并通过朴素贝叶斯网络对障碍物进行分类。

与以上方法不同,本文通过CBIR来检测固体障碍物。在5种不同距离度量下,使用不同的特征提取法进行大量实验。利用所提方法可以实时更新障碍物的信息,有利于机器人检测识别障碍物,实验结果验证了所提方法的有效性。

1 搬运机器人上的CBIR系统

本文提出一种基于图像检索的机器人障碍物检测方法,主要目的是使机器人具备自主识别和分类障碍物的能力(类似于智能搬运机器人)。其应用范围较广,如利用机器人进行物品归类与搬运等。

1.1 机器人数据管理与处理框架

机器人上的CBIR系统主要依靠高清摄像设备、射频识别(radio frequency identification,RFID)、地理信息系统(geographic information system,GIS)和分组无线服务技术(general packet radio service,GPRS)解决图像数据的采集和传输处理。其基本框架如图1所示。首先,系统通过RFID阅读器与RFID标签通信以获得标签序号,及相关固体障碍物的信息,并将这些信息发送到控制服务器以确保信息的收集与管理。当控制服务器收到序列号时,系统会收到第一幅图像,并比较该幅图像与数据库中存储的参考图像,采用一定的相似性度量方法检索出前几幅最为相似的图像。采集过程结束后,机器人的摄像机再拍摄第二幅图像。依此类推,不停进行图像捕捉与处理。因此所有的实时标签序号、采集时间、信息状态图像、GPS数据通过具有GSM/GPSR的GSM调制解调器网络进行阅读、分析和存储,并向用户图形界面展示。这样机器人可以获得实时位置、障碍物的实际信息,以及周围区域的估计精度,可以为后续的其它处理做准备。

图1 机器人障碍物检测系统的基本框架

1.2 提出的CBIR框架

为检测障碍物获得相关障碍物信息,采集获得的图像需要与数据库的图像进行检索匹配,并可以将该采集图像编入数据库中。图2给出CBIR系统在数据库中的索引并检索图像的架构。首先进入查询接口模块,分别对数据库图像和查询图像提取图像特征;接着进入特征表示模块,将查询图像特征与数据库图像进行相似度计算,将获得的计算结果按从大到小排序,遴选出前N个检索图像作为输出结果。为了讨论距离度量的影响,本文将不同的相似性距离方法用于CBIR系统中。通常,一个完善的CBIR系统有两个要点:①必须提取出数据库中每一个图像的重要特征,并有效地表征图像;②可以从数据库中检索出相关图像。

图2 提出的CBIR架构

为识别固体障碍物的位置,必须获得可靠的图像数据,并确保这些图像的数量和质量。为此,从不同位置拍摄多种不同的障碍物,利用拍摄的图像构建一个稳健的图像数据库。通过检索图像与数据库图像进行对比,获得相关的影像[9]。在GPRS网络可用的情况下,通过GPRS调制解制器将固体障碍物的所有实时信息和GPS数据传输到服务器。在接收图像方面,采用不同的图像处理方法来预测障碍物的位置。与一般图像数据库不同,本文图像数据库采集都是机器人路径途中的固体障碍物图像,这些障碍物会被摄像机预先从多个角度拍摄,并对图像进行编号,同一障碍物编号相同。为了处理方便,拍摄获得的RGB彩色图像均转换为灰度图像。

在CBIR系统中,距离度量(或称相似性度量[10])通常是一个关键组成部分,一些实用的距离度量方法有:巴特查里亚[4]、余弦[4]、欧几里德[9]、卡方[11]、陆地移动距离[11](earth mover’s distance,EMD)。在CBIR计算过程中,优良的距离度量方法可以显著提升检索过程的误差。一般根据图像间的最小距离度量将检索结果进行排名,所获的距离越小,则检索图像与数据库图像越相似。假设x,y分别是检索图像和数据库图像,则可按照表1中不同方法计算相似度的距离。

表1 用于测量相似度的距离度量

2 固体障碍物的特征提取

在对所接收图像进行特征提取之前,需要去除不符合需要的和其它有干扰的特征。对接收图像进行预处理是障碍物位置探测阶段的重要步骤。分类处理结果较为依赖预处理的过程。噪音、光线都会一定程度影响对图像的处理检测。因此,本文预处理过程包含以下步骤:①在不同的光线条件下拍摄照片,以提升数据库的整体质量;②在复杂的灯光环境下进行补光,以减少灯光对障碍物位置检测的消极影响;③将RGB彩色图像转化为灰度格式进行处理,并稍微提高像素的亮度;④拍摄原始图像时,将分辨率设定为640×480,并将它的大小裁剪为不高于300×300的尺寸,这样可以减少预处理的复杂度,也便于图像存储。

本文的目的是研究图像纹理特征在障碍物位置探测系统中的作用。纹理分类的一个主要问题是提取障碍物的纹理不变特征。在很多现有的纹理结构中,采用不同的方法来描绘纹理特征,其纹理特征提取至关重要。本节主要研究不同的特征提取法,即3种不同的障碍物特征提取方法,分别是Gabor小波、GLCM和BGLAM。

2.1 用Gabor小波滤波器进行特征提取

Gabor变换是短期傅里叶转换与高斯窗口的结合[12]。在时域中的窗口大小是固定的,因此在空间域和频域中需要固定的分辨率。所以,Gabor转换可以用于分析数字信号,但是很多自然纹理中没有数字信号。本文通过不断转换小波解决这个问题。转换的方法为

(1)

式中:s(t)为信号;(a,b)分别是膨胀因子和转化因子;h(t)为基本小波。小波转换将信号s(t)分解成小波函数集。小波转换可以根据因子(a,b)在时空域和频域中得到可变分辨率。二维的Gabor基本函数定义为

(2)

式中:σ是高斯分布在x方向和y方向的变体;ω0是正弦曲线的频率;θ是正弦曲线的方向。Gabor基本函数是一个二维的高斯,由频率为ω0、 方向为θ的正弦曲线包围并调制。垃圾箱位置检测中所用的Gabor小波函数定义为

(3)

根据掩码尺寸和正确的频度确定Gabor滤波器的参数。掩码尺寸的大小影响检索精度。需要确定最适合的滤波器大小,并用正确的频值确定垃圾箱位置。本文通过5个集的可分性和4种不同大小(7×7、11×11、17×17、21×21)的像素来测量掩码尺寸和频值对提取特征造成的影响。

Gabor小波的基本函数含有所选的特定滤波组件,其可用于构建空间域滤波器[13]。每一个滤波器都由一对元素组成,即复杂正弦曲线的实部和虚部。在一种频级中,滤波器的输出是对图像中所有卷积像素的虚实滤波器掩码的平均卷积输出的调制。计算公式为

(4)

式中:Rave是用滤波器掩码对图像区域进行卷积的结果。Iave是用滤波器虚掩码对图像区域进行卷积的结果。

2.2 用GLCM进行特征提取

在GLCM中采用统计方法得到不同的纹理特征,其采用的灰度图像的像素大小为300×300,目的是在固体障碍物位置检测中减少处理的复杂性,便于存储。概率密度函数通过用已输出的数量除以可能输出的总数,将GLCM规范化[14]。概率测量定义为

Pr(x)=Cij(d,θ)

(5)

式中:Cij是灰度i与j之间的共生概率;定义如下

(6)

式中:Pij表示i和j在给定d和θ内共生的数量;G是量化位置规定的数量。

文献[15]中指出以GLCM表示的最合适的特征是能量、熵、对比度、方差、相关性和逆差矩。因此,本文采用10个纹理特征提取特征的精度。这些特征通过矩阵中行和列的平均值μ和标准偏差σ进行定义:

能量

对比

关联

同质性

集群突出

差异

动关联

集群阴影

最大概率

maxPro=MAXijCij

设计GLCM时需要考虑很多参数因子,如量化料位G,置换值d,向值θ。本文只测试了G和d的作用,因为很多研究表明将θ设定为0°、45°、90°和135°可以得到精确的结果。表2给出了GLCM因子的细节和垃圾箱位置检测中设定的值。

表2 固体障碍物位置检测中GLCM的因子设定

2.3 用BGLAM进行特征提取

灰度氛围矩阵(GLAM)是用来形成有邻域的有限矩形点阵图像网格[16]。氛围矩阵把A作为单独的集进行处理,并计算A与B的邻域。两个子集的氛围集用A,B⊆S,VB(A,N) 或者VB(A) 进行表示,其中,邻域系统N中与B相关的A氛围集是根据V的氛围集进行推导的。

BGLAM是从单一站点开始计算的GLAM邻域系统。图3给出了在最近邻系统中,灰度氛围矩阵在二进制晶格中的例子。图像的BGLAM可以测量出灰度邻域中每一个灰度的数量。在图3的案例中,共有8个方向(离中心像素最近的8个邻域),这表明,最终的矩阵中包含8个小矩阵,每一个小矩阵代表一个方向。由于原始图像被分为两种灰度,所以小矩阵的大小为2×2。右侧矩阵的特征通过计算出这些元素在给定方向中出现的次数计算而得到。因此,一旦所有的矩阵(每个方向一个)都被计算出,就把所有的值串联起来,形成特征矢量。BGLAM一个主要的优点是不需要滤波器,特征参数可以直接从原始图像中获得。当且仅当两个图像的BGLAM相同时,这两个图像才相同。因此,BGLAM可以表示特定图像。

图3 BGLAM的示例

3 评估与分析

本文用表1中的5种相似度距离将所测试图像和数据库中其它固体障碍物图像进行比较。用平均检索率来评估检索系统的性能。将N值设为1、3、5、8、10、15和20。该实验在同一个数据库中进行,比较不同距离所得出的结果,以获得最佳检索精准度。

3.1 评估的度量方法

在CBIR系统中一般使用5种距离:巴特查里亚[4]、余弦[4]、欧几里德[9]、卡方[11]、EMD[11],并将这5个距离分为低、中、满、淹没和溢出。采用相同的数据库,将不同距离的结果进行比较,以获得最佳性能。

本文基于两种定量评估标准。第一种是基于准确率-召回率(Precision-Recall)图像的平均检索率。平均检索率是将平均检索准确率与前N个匹配检索图中属于同一图像的数量作对比。N表示被检索图像的数量。本文使用F1(准确率和召回率的加权调和平均数)将其与被检索的图像数量作比较。召回率、准确率和F1测度的计算公式分别为

(7)

(8)

(9)

其中,Nretrieval表示检索出相关图像的数量;Nallrelevant表示数据库中相关图像的数量;NnumRetrieval表示检索图像的总数。

3.2 采用Gabor小波的实验结果

本文在250个固体障碍物图像中比较Gabor法在不同距离下的检索精准度。表3给出了几种相似度距离的检索率。在所有的匹配中,EMD的结果优于其它相似度距离。采用Gabor过滤器的EMD距离从第1张到第10张图像的平均检索率为100%,在第15张图像时为90%。

表3 采用Gabor小波检测固体障碍物的平均检索率/%

EMD距离提升了CBIR系统的性能,且在不同位置下对所有固体障碍物图像的处理结果都较好。

图4和图5分别给出了基于平均检索率和F1测量的每个距离的性能。所选Gabor在EMD距离下检索系统的参数明显优于其它距离,前10个检索图像的平均检索率达到100%,前20个检索图像的平均检索率也有60%以上,明显优于其它4种距离度量,次好的是欧几里得度量在前10个图像中,欧几里德距离的平均检索比率性能与EMD距离的性能相似,然而,欧几里得距离度量前20个检索图像的平均检索比率只有50%,甚至低于卡方和余弦距离度量。对于F1测量,EMD距离度量更快达到了峰值,且峰值保持的次数更多,也优于其它4种距离度量。因此,通过观察基于F1测量的欧几里德距离,可以看出EMD距离的优越性。

图4 采用Gabor小波的平均检索率

图5 采用Gabor小波的F1测量

测试数据库中的一个简单图像,并在EMD距离中将它用作检索图像。图6给出了前20个匹配中检索图像的结果。从图中可知,所提系统能够检索出正确的相似影像,而且相似度非常高,前9个是相同障碍物,后11个是相似障碍物,虽然随着N逐渐增加,检索的精准度就逐渐减少,但检索的结果基本准确。

图6 采用Gabor小波得出的前20个检索图像

3.3 采用GLCM的实验结果

将GLCM法与5种相似度距离一起使用,以测量并比较平均检索率。表4比较了平均检索率。从表4的结果中可以看出,所有距离在前5个检索图像中的平均检索率均为100%(巴特查里亚距离除外)。当N>5时,采用EMD距离度量的平均检索率也达87.5%。综合来看,EMD距离有很明显的优越性。这主要是由于EMD可以更好地描述直方图的距离,因此,图像特征的表征效果更佳,获得更高的平均检索率。

表4 采用GLCM固体障碍物的平均检索率/%

图7给出了采用GLCM的平均检索率,图8给出了采用GLCM的F1测量值。从图中可知,在前10个检索图像中,EMD距离的平均检索比率保持在70%以上,而其它距离度量的平均检索率都在65%以下,其中,采用巴特查里亚距离,其平均检索率下降的最快。采用卡方、余弦、EMD和欧几里德距离平均检索率下降比较平缓,而EMD表现最佳。对于F1测量,EMD距离更早达到峰值,且峰值更高,因此,EMD距离优于所有其它距离。两方面表现最差的是巴特查里亚距离度量。图9给出了前20个匹配中检索图像的结果。从图中可知,所提系统能够检索出正确的相似影像。随着N逐渐增加,系统的精准度就逐渐减少,但依然保持较高的精度。

图7 采用GLCM的平均检索率

图8 采用GLCM的F1测量

图9 采用GLCM得出的前20个检索图像

3.4 采用BGLAM的实验结果

在BGLAM中采用相同的相似度距离方法,来比较CBIR中GLAM的性能。实验中,选择了与MLN和KNN分类器相同的BGLAM参数。使用的数据库中每个类别的前20个图像来评估CBIR。表5给出了采用5种相似度测量时从固体障碍物数据库中获得的平均检索率。对于前10(N=10)个匹配图像,余弦、卡方和EMD均达到了100%的检索率,但当N增加时,EMD距离表现出的平均检索率更高。根据数据库的主观测试得出:平均检索率越高,与人类感知相符的距离度量越好。

在5种距离方法中,可以将BGLAM中的检索图像和目标图像作为特征提取法,对这5种距离进行评估。在检索效率方面,巴特查里亚和欧几里德距离的结果精度明显差于其它距离方法。巴特查里亚在前8个图像中检索出不相干的图像,准确率为70%。图10和图11给出了基于不同距离方法的平均检索率和这些距离的F1测量结果。从两图中可知,EMD距离的性能最佳,在前10个检索图像中,

表5 采用BGLAM固体障碍物的检索率

图10 采用BGLAM的平均检索率

图11 采用BGLAM的F1测量

平均检索比率达到100%。前15个检索图像中,达70%的检索比率,最低平均检索比率达55%。在大多数检索出的图像中余弦距离的性能与EMD的相似。余弦距离和EMD距离明显优于其它距离方法。由于欧几里德距离没有考虑特征属性在语义类别中的变化,因此性能较差。基于上述观点,EMD和余弦距离在CBIR系统使用BGLAM时优于其它相似度距离。

4 结束语

本文提出用于固体障碍物位置检测的CBIR系统,该系统有两个重点:①必须通过提取数据库中每张图像的重要特征有效地代表图像;②检索图像和数据库中图像的相似度度量必须能够检索出相关图像。CBIR系统依赖于障碍物图像的纹理特征,能够检索出排名靠前的图像,以及数据库中已存储的图像特征。在障碍物位置探测系统中,EMD距离在所有的N值中的准确率都最高。将GLCM作为CBIR系统中的特征提取法,在较低的距离度量中结果较好,但是与其它特征提取法相比,在较高的度量中效率较低。另外,实验结果表明,前10幅图像可以由Gabor和BGLAM提取法检索出,EMD距离非常有效,可以在机器人障碍物位置识别系统中使用。

猜你喜欢

度量障碍物特征提取
鲍文慧《度量空间之一》
模糊度量空间的强嵌入
高低翻越
SelTrac®CBTC系统中非通信障碍物的设计和处理
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
地质异常的奇异性度量与隐伏源致矿异常识别
基于MED和循环域解调的多故障特征提取
土钉墙在近障碍物的地下车行通道工程中的应用