APP下载

射频技术辅助的三维视觉识别系统

2021-11-12刘子瑜邱灵龙王楦烨

传感技术学报 2021年9期
关键词:单目摄像头边缘

张 智,刘子瑜,邱灵龙,王楦烨,董 旭

(1.浙江工业大学之江学院信息工程学院,浙江 绍兴 312030;2.浙江工业大学计算机学院,浙江 杭州 310023;3.浙江工业大学信息工程学院,浙江 杭州 310023)

近年来,视觉识别被广泛应用于视觉定位[1]、物品检测[2]、生物鉴别[3]等。随着智慧城市化、快递货运行业等方向的高速发展,视觉识别应用于机器人代替人工从事重复繁杂的工作非常普遍,且逐渐产生分拣机器人、自动包装机器人和视障辅助识别等多元化应用。

随着社会需求的增加,视觉识别的功能与性能也在逐步上升。利用视觉识别技术结合网络化和信息化的模式实现自动分拣成为安全监控、产品检查和自动包装等行业的主要研究和发展方向之一[4-6]。在对物体进行精准操作的应用中,关注物体整体三维形状是十分必要的。通过单目摄像头只能做到二维目标识别,部分研究中通过单目摄像头完成的三维物体识别需要结合图像处理算法获取其他信息,实质上识别的图像还是二维的。视觉识别研究中通常需要多视角或多目摄像头实现物体在三维空间上的目标识别。如Wiles等[7]提出的从单个和多个视图预测雕塑的3D表面学习方法中,使用2D剪影图像仍然受图像尺寸的限制,而多视图预测需要合成多个视图来估计三维。三维目标识别一般具有两个以上的摄像机[8-9],随着大量摄像头的安装,监管者需要不断关注视频屏幕并从中提取信息,这对于人员来说在耐力和工作强度上都存在挑战。此外,随着监控时间的增加,视频录像数据的不断增长对存储设备的性能提出了更高的要求。

射频识别(Radio Frequency Identification,RFID)[10]通过射频信号获得有关数据,属于无接触式自动识别技术,可有效缩短识别目标对象的时长。通过射频技术与视觉技术融合可以降低数据冗余[11]。但是当前关于RFID与视频结合的研究更倾向于利用RFID获取位置信息或者利用相位值这种无线信号的物理层属性来辅助视觉算法完成目标的定位或追踪任务[12-13],没有充分利用RFID标签所关联的物体信息。

在对现有视觉识别技术进行深入研究的基础上,为了提高识别物体的速度和准确率,本文提出了一种可以在不同场景下通用的射频技术辅助的视觉识别系统,借助RFID自动识别和动态收集功能,将物体特征数据绑定于RFID标签作为先验信息存储于数据库,通过读取物体特征信息可以辅助摄像头识别物体,以三维立体坐标形式复现物体所在平面的位姿。这样可以对物体进行综合判断,提高原始视频识别系统的智能性,可以广泛的应用在未来的自动分拣、视障辅助、机器辅助操纵等场景。本文主要的创新点包括:①提出了一种通用的多传感器融合的方法,能够通过采用射频标签所关联的先验信息辅助不同视觉识别算法。②以Canny[14]和Faster R-CNN[15]两种算法为例,详述了如何运用本文方法使用标签关联的物体信息作为先验信息辅助现有视觉算法完成单目三维识别,证明了本文方法的通用性。③对不同物体进行大量实验,验证了本文方法的有效性,与使用三维摄像头、多目摄像头实现三维识别的视觉算法相比,通过RFID辅助单目摄像头进行物体识别可以降低复杂度,并提升处理速度,多传感器的融合提高了识别的准确度。

1 设计原理

本文系统通过RFID标签标记物品特性,读取物品的重量、尺寸和材质等先验信息辅助摄像头对物体的识别、距离的判断等操作。如图1所示为本文系统框图,系统包含的模块有:传感器模块、控制模块、传输模块、数据库。其中传感器模块包含RFID单元(射频模块)和摄像头(视频模块),RFID单元由电子标签、天线和读写器组成;以电脑作为控制模块;传输模块采用RFID读写器和摄像头上的有线网口通信。标签中的物品信息存储于数据库作为先验信息,方便识别物品时读写器读取数据,减少计算机分析视频识别物体的时间。

图1 系统框图

1.1 射频识别原理

无接触式自动识别技术RFID是由RFID电子标签、读写器、天线三部分组成。无源超高频RFID系统采用的是反向散射调制,如图2所示,系统运行时,读写器发射查询信号,无源电子标签获得查询信号后,将其中部分信号整流为直流电,用于为电子标签中的电路提供能量,另一部分信号由电子标签反射并调制后,将数据反馈给读写器。读写器的作用是读写电子标签中的内容,天线的作用是在电子标签和读写器间传送射频信号(能量和数据)[11]。

图2 反向散射调制

1.2 视觉识别算法介绍

视觉识别在物体检测中的应用是机器视觉的经典研究方向之一,主要目的是得到图像中物体的目标框,以及给出物体的类别。不管是机器视觉中解决物体检测的基础方法边缘检测,还是更加成熟的深度学习目标检测算法,都无法做到单目摄像头的三维目标识别。

边缘检测在视觉识别中是十分重要的研究方向,经典的边缘检测包括微分法、最优法和拟合法。最常见的是微分法,一般被划分为一阶边缘算法和二阶边缘算法,如常用的Sobel[16]算子属于一阶边缘算法,Sobel具有较强的抗噪声干扰能力,在灰度渐变或者噪声强的场景中图像处理效果不错,但是定位准确度较低。Laplacian[17]和Canny[14]算子属于比较有名的二阶边缘算法,Laplacian算子在噪声干扰下容易丢失边缘梯度信息,因此更为常用的是Canny算子。

在使用Canny算法进行边缘检测任务之前,通常使用高斯函数对图像进行平滑处理,以降低高斯噪声,并设定分辨率,使得图像的强度变化能够更快速被检测到,这个过程非常有利于检测到灰度变化最大的边缘。通过选择图像梯度可以定位这些最大边缘的区域,返回水平梯度值Gx和垂直梯度值Gy。然后计算欧几里得距离,作为梯度大小G,如式(1)所示。图像的边缘往往存在被延伸的情况,只确定梯度值不能很好地确定边缘,因此有必要确定边缘方向θ,计算方法如式(2)所示。

但是,Canny算法也存在一些缺点。例如无法识别物体周围的弱边缘,或者,由于噪声的存在,有可能识别出虚假的边缘。此外,它无法识别出分支的边缘和一些重要的细节。Canny的漏检率低于Sobel,但误检率更高。

随着深度学习的发展,物体检测算法中会加入卷积神经网络(Convolutional Neural Network,CNN)框架对图像进行训练提升识别性能[18]。基于深度学习的视频识别过程中,首先要使用摄像头传感器采集视频信息,通过嵌入深度学习算法识别、检测视频图像。

普通的识别方法是对单帧图像进行深度学习表达,单个图像粒度通过CNN网络将得到一个输出,CNN由输入层、卷积层、归一化层、池化层和全连接层组成。在静态的识别过程中,需要提取图像特征进行学习。而在快速运动的视频中,为了减轻背景对视频识别算法性能的影响,需要加强时间域上的学习。因此,为了提高识别精度,在运动量较明显的视频识别过程中,CNN网络可以通过在更深层进行时间卷积,将同一层的参数传递给不同时间的同一层网络。

R-CNN(Regions with CNN features)[19]系列的目标检测算法一般包含候选区域提取、卷积特征提取、训练分类器和边界回归。前人所提的R-CNN、SPP-Net[20]、Fast R-CNN[21]算法都对CNN在物体检测上的应用做出了重要贡献,但是仍然存在特征重复提取、耗时过大的问题。

Faster R-CNN使用了区域生成网络(Region Proposal Network,RPN)[15],和之前的R-CNN系列算法有所区别的是在特征图上进行候选区域提取,而不是在原图。Faster R-CNN使用预训练模型训练后可以得到卷积网络层VGG-16[22],输入图像至卷积层后能够在第五个卷积block的第三个卷积层输出最终的特征图,然后使用RPN选择候选区域。结合特征图和候选区域的输出结果,并执行感兴趣区域池化(Region of interest pooling,RoI pooling)之后在全连接层可以实现目标的识别和定位。相比R-CNN和Fast R-CNN,Faster R-CNN在检测精度和耗时方面都有所改进,但对于每个目标候选框的计算量还是比较大。

2 射频辅助的三维视觉识别

本文提出的射频辅助视觉识别方法是一种通用的三维识别辅助方法,适用于改进任意物体视觉识别检测算法。本文以Canny边缘检测算法和Faster R-CNN目标检测算法来证明新提出的射频辅助视觉识别方法的通用性和有效性。

2.1 算法流程

射频辅助视觉识别程序流程图如图3所示。

图3 视频识别原理流程图

首先,启动摄像头后,开启视频流,然后捕获视频的一帧,根据选择的视觉识别算法对捕获的图像进行数据预处理,随后使用视觉识别算法能够较好的对物体进行标定。若置信度过低则重新检测。

在视觉识别过程中,由于相机拍摄画面的畸变容易造成图片桶形失真,因此本文采用相机标定算法[23]对图像进行矫正处理。首先将世界坐标转化为相机坐标,如式(3)所示,其中(Xw,Yw,Zw)表示某点的世界坐标,(Xc,Yc,Zc)表示该点的相机坐标,R为世界坐标系分别绕X,Y,Z轴旋转的旋转矩阵之积。T表示偏移向量。

然后结合小孔成像原理和三角形相似性原理计算二维图像坐标,关系表达式如式(4)所示:

式中,f为图像坐标系原点与相机坐标系原点之间的距离,(xg,yg)表示图像坐标。

最后,通过图像坐标计算像素坐标,虽然图像坐标系和像素坐标系都在成像的平面中,但是两者一般情况下是不垂直的(如图4所示),转换关系如式(5)所示,(u,v)表示像素坐标,(u0,v0)为像素坐标系原点在图像坐标系中的坐标值,θ为像素坐标系的夹角。

图4 图像坐标转像素坐标示意图

多目识别系统复杂度较高,而无论用何种单目识别方法得到的结果都是二维的,难以分析物体整体情况,因此本文引入RFID标签信息作为先验信息辅助识别物体。视觉识别获得目标框的同时,也将返回物体的长、宽和高等信息,将其两两相乘得到不同面的面积,再将目标框面积与先验信息计算得出的面积进行比较,设定误差在某个区间内为同一个面,此时先验信息中剩余的长(或者宽、高)则为实际的高,得知物体的高后可从目标框的中心点坐标映射出重心坐标,然后以目标框为顶面可以复现出三维物体。以图5为例,加粗黑线框为检测到的目标框,返回目标框的顶点像素坐标后,通过左上角顶点像素坐标(x,y,z)计算其真实坐标(X,Y,Z),如式(6)所示,其中dx、dy、dz分别是指真实距离Dx、Dy、Dz对应的像素距离。通过顶点真实坐标可计算出目标框中心点的真实坐标。由俯视角度得到了目标框的中心点坐标,则以长方体为例,可映射出的重心坐标为。

图5 识别目标框示意图

本文以Canny边缘检测算法和Faster R-CNN目标检测算法为例来详述如何使用本文方法对现有算法进行改进,对Canny和Faster R-CNN的改进分别见2.2节和2.3节。

2.2 Canny的改进算法

当物体检测过程中采用边缘检测算法时,为了尽可能减少噪声对边缘检测结果的影响,采用高斯滤波对图像进行平滑及过滤噪声处理。然后计算图像中不同像素点的梯度强度和方向,图像边缘一般会指向各个方向,于是Canny算法使用四种算法来识别图像中的水平、垂直和对角边缘。在传统的Canny边缘检测中,伪边的存在会导致物体尺寸的确定出现误差[14],因此基于原始的算法,本文做了如下的改进。

首先对图像进行平滑时,通过每个像素的水平梯度和垂直梯度的高斯核计算梯度的绝对值,并得到边缘方向,分别如式(7)和式(8)所示。

本文改进的Canny边缘检测方法中,为了消除边缘检测引起的虚假响应,采用非最大值抑制,然后采用双阈值检测方法进行标定真实边缘和潜在边缘,实质是结合了RFID标签中准确的物体几何信息和像素信息来确定滤波窗口的权重,像素值越接近几何中心的像素,则权重越大,数学表达如式(9)所示。

式中,(ui,vj)为当前点的像素坐标,(uk,vl)为几何中心点的真实坐标,获取物体几何信息后由具体的几何中心计算公式得到。f(ui,vj)和f(uk,vl)分别表示当前点和几何中心点的像素值。δd和δg分别表示空间距离标准差和灰度距离标准差。由上式可知,若像素值和附近目标点的像素很接近或者差异很大时,难以达到去噪目的,因此需要缩小边缘的搜索范围,本文采取减小搜索范围阈值进行自适应双阈值,表达式如下:

最后,通过抑制孤立的弱边缘来完成边缘检测。分级后的强边与弱边相关联,通过保留局部极大值和抑制所有其他的非极大值点可以实现将模糊的边缘转换成锐利的边缘。

2.3 Faster R-CNN的改进算法

为了更全面对视觉识别方法进行改进,来展示此方法的通用性,本算法也提供了对目标检测算法的辅助识别,输入的数据集标定了RFID标签中准确的物体几何信息。由于对于分类较多的目标检测任务,ResNet[25]模型在精确度和运行速度上都优于VGG模型,因此本文采用的基础网络为ResNet-50,预训练模型选择ImageNet,且在卷积层中运用ImageNet中的批归一化(Batch Normalization,BN)方法。训练迭代轮数为24,初始学习率设置为0.002 5,批大小为6,观察到训练集损失发散时降低学习率。

本文为了增强识别精度,改进的方法在原始的Faster R-CNN的RPN架构上引入了特征金字塔(Feature Pyramid Network,FPN)[26],在每次的卷积下采样时都生成对应的特征图,然后通过自顶向下的上采样方式将特征图放大,同时语义也越强,这使得网络更具鲁棒性,提高了Faster R-CNN算法对多尺度的小目标的检测精度。将前后两种特征图进行横向特征融合,可得图6中右边的FPN特征图组。

图6 FPN结构图

RPN对特征图输出提议框之后,由Softmax模型确定生成的提议框中的候选目标部分,RPN的损失函数如式(11)所示:

式中,Nc表示类别数目,Np表示候选区域中目标的数量,i为候选目标的编号,Pi表示候选目标是真实目标的概率,P′i表示预测正确性标签,获取先验信息计算候选目标的预测框与真实目标框重合面积,当此面积大于等于80%时,P′i=1,当重合面积小于30%时,P′i=0。bi表示预测框的边界参数坐标,b′i代表P′i=1时的目标标注框边界坐标向量。λ=10,是损失函数在训练总损失函数中占比的平衡参数。

由于RoI Pooling会导致区域错误匹配的问题,因此为了提高多层次目标的检测精度,本文在选择候选区域之后增加RoI对齐[19]层,替换Faster R-CNN的RoI Pooling层。

3 实验与结果分析

3.1 实验环境介绍

本文所提系统基于Python3.6和PaddlePaddle实现,算法采用边缘检测Canny算子和Faster R-CNN目标检测算法。PaddlePaddle用于训练Faster R-CNN模型并进行数据增强以提高模型准确度,模型使用时需要导入依赖库paddlex。硬件配置为Intel i7-8700K 3.70GHz CPU和16GB内存,Nvidia GeForce RTX 2080显卡,Nvidia依赖为CUDA10.0、cuDNN7.5.1。射频模块读写器由INDY R2000芯片和双CPU架构设计组成。视频模块硬件包括海康威视摄像头DS-2DC2204IW-DE3/W,该摄像头可变焦,焦距范围2.8 mm~12 mm,其使用的图像传感器能够对图像进行精准的显示,且具有降噪功能,在对相邻帧图像进行比较滤波后,能够对找出的噪声点位置进行增益控制,以弱化弱信号图像的噪声干扰;支持水平350°无死角监控,通过网口传输视频流,结合物体检测可实现对物体坐标的精准定位。

本文基于两种不同的算法进行的对比实验过程分别包含双目识别和单目RFID辅助识别两种不同的识别方式。双目识别采取如图7所示的通过两个摄像头获取物体三维信息,其中摄像头1获取单个截面目标框,摄像头2可获取物体的高度;单目RFID辅助识别方式的测试演示图如图8所示,包括RFID读写器、RFID天线、带有标签的物体和一个摄像头。图7中的摄像头1与图8中的摄像头1位置一致,即摄像头1在双目、单目的情况下位置一致。

图8 RFID辅助单目摄像头识别演示图

为体现本研究的可靠性及效果,本文以视野范围左上角顶点处为原点建立三维坐标系,对不同规格的物体进行了不同方位、不同距离的测试,结果表现出物体越小识别误差越大,因此最终选择了较小规格的物体识别结果数据进行分析,实物如图9所示,包括长方体、立方体、直棱柱、平行六面体、球体和圆锥形状的物体。

图9 部分测试物体实物图

3.2 性能评估

双目识别需要靠视觉识别技术获取物体的有效信息。而基于RFID技术的单目视频识别辅助系统中,RFID标签存有物体实际的先验信息,通过真实的信息辅助摄像头识别物体加快了识别速度、减少了估计误差。

在定位准确度方面,如图10所示为边缘检测实验的中心距离偏差对比图,图11为Faster R-CNN目标检测实验的中心距离偏差对比图。相同尺寸物体基于同样的环境因素进行测试,由于边缘检测比目标检测算法更易受环境因素的影响,因此定位误差起伏较大。对比不同形状的物体的检测结果,本文通过RFID标签信息辅助单目边缘检测进行三维视觉识别的方法误差均比双目边缘检测的误差要小,总体平均降低定位误差为25.60%。通过RFID标签信息辅助单目Faster R-CNN进行三维视觉识别的方法误差均比双目Faster R-CNN三维识别方式的误差更小,总体平均降低定位误差为25.70%。

图10 边缘检测误差对比图

图11 目标检测误差对比图

在识别准确度方面,边缘检测能标识物体的边缘,但得到的结果中目标框会大于物体实际边缘。目标检测能准确识别出物体标记好的标签,但不论是边缘检测或是目标检测算法都会由于环境因素的影响而使得目标框不够标准,导致返回物体的长、宽和高有一定的误差,如图12中实际俯视应该是黄色的框,但是检测返回的结果却是红色的框,这时通过RFID读写器读取物体标签能得到准确的物体尺寸信息,使得检测的计算结果更加准确。本实验中,对于物体三维尺寸信息,边缘检测的平均识别误差为9.02%,目标检测的平均识别误差为9.25%,通过从数据库中获取读写器上传的真实的物体信息,能去除三维尺寸的识别误差,有助于未来应用于各种机器,提高机器对物体的准确操纵程度。

图12 物体识别目标框示意图

在算法速度方面,运行多目摄像头进行物体识别,产生的数据量更大,而且需要对多个摄像头画面进行关联分析,算法计算更耗时。单目RFID可以减少视角,利用单目识别出的二维图形加上RFID标签关联的物体尺寸等信息,可以识别出物体的三维位置,并且射频读取的速度很快,因此从原理上是能够提高物体识别的速度的,而且实验也证实了单目RFID确实提升了识别速度,该方法的代价是在物体上需要贴上电子标签,将物体的信息与标签相关联并存储在数据库中,这部分的工作需人工操作。如图13所示的边缘检测识别速度对比图中可看出在所有的测试中,双目边缘检测所需的时间均高于基于RFID改进的单目边缘检测算法,本文在速度上平均提升约32.82%。

图13 边缘检测识别速度对比图

如图14所示为目标检测识别速度对比图,由于Faster R-CNN计算量更大,加以调用了第三方paddlex依赖库,在准确度提升的同时会牺牲速率,因此基于RFID的单目Faster R-CNN在速度的提升上更加明显,速度上提升约48.38%。本文以一个摄像头代替两个摄像头实现三维识别,降低了算法复杂度,提高了识别速度。

图14 目标检测识别速度对比图

4 总结

本文提出了一种通用的射频技术辅助的视觉识别系统,通过读取RFID标签信息辅助单目视觉识别算法识别定位物体,并获取数据库中存储的标签数据实现三维坐标可视化复现,对今后自动分拣、视障辅助、机器辅助操纵等不同场景的智能化发展具有极大的研究价值。实验数据证明,针对边缘检测算法的辅助识别,本文方法可提高25.60%的定位准确度,降低9.02%的三维尺寸识别误差,速度提升了32.82%;针对Faster R-CNN目标检测算法的辅助识别,本文方法可提高25.70%的定位准确度、降低9.25%的三维尺寸识别误差以及提升48.38%的识别速度。在本文系统的辅助之下,视觉识别效果能得到整体的提升,后续工作将继续优化识别的准确度,使得本系统能够复现不规则物体的三维图像。

猜你喜欢

单目摄像头边缘
浙江首试公路非现场执法新型摄像头
摄像头连接器可提供360°视角图像
一种单目相机/三轴陀螺仪/里程计紧组合导航算法
基于单目视觉的仓储物流机器人定位方法探讨
单目SLAM直线匹配增强平面发现方法
一张图看懂边缘计算
基于CAD模型的单目六自由度位姿测量
奔驰360°摄像头系统介绍
找出摄像头花屏的“罪魁祸首”
在边缘寻找自我