APP下载

面向激光跟踪仪跟踪恢复的合作目标视觉检测

2020-04-08董登峰周维虎高豆豆

光学精密工程 2020年2期
关键词:激光样本图像

王 博,董登峰*,周维虎,高豆豆

(1.中国科学院 微电子研究所,北京 100094;2.中国科学院大学,北京 100049)

1 引 言

以激光跟踪仪为代表的大尺度空间坐标测量系统在大型高端装备制造及大科学装置建造等先进制造领域发挥着关键作用。在跟踪测量过程中,断光、操作不当或其他现场偶发等因素导致跟踪中断进而测量停止的现象时有发生。该现象是激光跟踪仪在飞机、船舶等大型装置的精密装配,机器人末端执行器的绝对位姿控制等高精度在线测量应用中影响工作效率最突出的问题,甚至会导致整个测量及在线校准过程的失败。跟踪目标丢失后,引导激光自动对准合作目标,实现跟踪与测量快速恢复是激光跟踪仪高效工作必须解决的难题。围绕相关技术,天津大学研究了基于视觉引导的激光经纬仪动态跟踪与自动测量方法与系统装置,重点攻克了空间坐标转换与系统标定并实现了激光的自动对准[1-2];北京航天航空大学研究了视觉引导激光跟踪测量系统的空间坐标变换校准方法,给出了坐标系之间快速有效的解算方法[3],同时针对引导过程中靶球中心的定位方法进行了研究,实现从图像中提取靶球中心像素坐标位置[4-5]。

上述研究中,利用数字图像处理与机器视觉技术对激光成像光斑或合作目标靶球的识别定位是实现视觉引导激光对准目标位置的重点内容,主要实现方法包括:利用图像增强技术对输入图像进行预处理,然后利用曲线拟合方法来识别定位目标靶球;利用卷积滤波方法对输入图像进行预处理,再利用图像分割、模板匹配的方法识别定位图像中的目标。这些方法在一定程度上实现了合作目标的自动识别与定位功能,但仍旧存在着明显的局限性,如应用现场环境复杂、形状相似干扰物造成的误识别,以及现场环境光线干扰、视觉成像系统观察角度和激光投射角度的变化等多种因素造成的合作目标无法识别等。这些缺陷都大大限制了基于视觉引导方法的应用。

近年来,深度学习技术在机器视觉领域得到了巨大的发展,并得到了高效而广泛应用。基于深度学习的卷积神经网络目标检测方法在检测精度和检测速度上都有了巨大的提高,并被广泛应用于多种领域的检测任务中。具有代表性的如YOLO[6]等这类端到端的单阶段深度学习目标检测模型,以及如Faster R-CNN[7]这类基于区域建议的两阶段深度学习目标检测模型。其中,单阶段的目标检测方法在实时性上表现较好,利用GPU加速等优化方法下能达到每秒近百帧的检测速度。而两阶段的目标检测模型在检测精度方面更具备优势,更加适合对检测精度要求较高的应用场景[8]。

本文结合深度学习的技术优势,为了快速而精确地检测复杂场景下的合作目标靶球,基于Faster R-CNN模型研究靶球检测方法,提出针对目标图像大小的多尺度变化与小尺寸检测的模型改进方法;同时针对合作目标靶球外形单一、纹理细节较少导致模型易产生误检测的问题,提出一种基于强背景干扰的困难样本挖掘方法,以提升模型训练过程中的优化效果,减少目标误识别率,提升检测精度。实验表明,本文提出的方法可以有效地克服目标尺寸多变或较小等因素和复杂背景及近似背景的干扰,大幅提升合作目标靶球的检测精度,为实现激光跟踪仪的跟踪恢复功能提供有力的技术支撑。

2 原 理

激光跟踪仪跟踪恢复的视觉引导基于合作目标靶球的图像坐标偏移量来实现,图1为该方法的激光跟踪原理。图中,短虚线为视觉成像系统视场范围,覆盖了激光束周边的一定范围;长实线为激光器发射的跟踪测距激光;长虚线为经过合作目标(即靶球)反射后的测距激光。

如图2所示,激光跟踪仪跟踪测量过程中,合作目标靶球成像于图像传感器中心区域,如O点所示;若发生目标丢失,跟踪中断的情况,靶球在图像传感器中偏离了中心位置O,成像位置记为点P。计算位置O与位置P的像素距离,再根据摄像机标定原理利用相机内参数将像素距离换算成图像传感器上的实际物理距离,将它作为控制系统偏移量发送给激光跟踪仪伺服跟踪控制单元,跟踪器控制驱动伺服电机转动,使偏移距离不断趋近于0,最终使目标靶球成像位置重新回到O点、激光束再次对准合作目标靶球实现跟踪恢复。在此过程中,实现复杂场景下合作目标靶球的视觉目标检测是实现激光跟踪仪跟踪恢复的核心内容。

图1 激光跟踪仪跟踪原理Fig.1 Principle diagram of tracking method for laser tracker

图2 跟踪恢复原理Fig.2 Schematic diagram of tracking recovery

3 基于Faster R-CNN网络框架的合作目标靶球检测及改进设计

3.1 Faster R-CNN网络结构的优势及问题

Ross B. Girshick等在2016年提出了Faster R-CNN网络结构[7],如图3所示,Faster R-CNN网络最大的特点是提出了基于网络生成候选区域方法(Region Proposal Networks,RPN)代替了选择性搜索Selective Search算法,克服了fast R-CNN网络区域建议依赖外部算法的缺陷,从结构上将特征抽取、区域建议提取、目标分类、目标边界框定位整合于一个网络中,大幅提高了网络的综合性能。相比较于YOLO等单阶段的目标检测网络,基于候选框的双阶段目标检测网络Faster R-CNN在精度方面具有比较明显的优势,同时可凭借GPU等算法加速手段提高实时性能,更加适合对检测准确率要求较高的测量领域。

图3 Faster R-CNN网络的基本结构Fig.3 Structure diagram of Faster R-CNN

但Faster R-CNN网络直接应用于跟踪恢复领域仍存在一定挑战,由于激光跟踪仪是空间大尺度测量系统,其合作目标靶球运动范围广且随机性强。在测量过程中,合作目标靶球与成像系统的距离变化较大,在不考虑变焦成像系统的情况下,合作目标的成像尺寸也剧烈变化,特别是合作目标丢失与跟踪中断多发生在目标距离仪器主机较远处,合作目标成像较小,这对目标识别精度构成了重大挑战,要求目标检测算法针对小尺寸目标具有良好的检测性能。在利用深度卷积网络进行目标检测的过程中,小目标检测不仅需要丰富的语义信息来进行有效的前景背景分类,也需要分辨率相对较高的浅层特征图所包含的位置信息进行边界框的回归。而标准的Faster R-CNN网络中,对输入图像进行特征提取的VGG网络仅将最深层的特征图提供给RPN网络做ROI提取,尽管深层次的卷积特征提供了较强的语义信息进行目标分类能够实现良好的召回率,但运算过程中维度的不断压缩导致深层特征图的分辨率不断降低。以VGG16为例,经过5组卷积与最大池化层操作后,分辨率为224×224的输入图像得到的特征图分辨率大小为7×7,最深层特征图对于小尺寸目标的位置信息丢失较多,因此faster R-CNN针对小尺寸目标的检测效果不理想,限制了该网络在激光跟踪仪合作目标检测方面的应用,需要进一步优化与改进。

3.2 针对靶球尺度变化及小尺度检测的提升策略

本文提出了一种结合HyperNet框架结构[9]与浅层高分辨率特征信息复用的方法,生成新的融合特征图替代原有的单一深层特征图。在避免大幅度加深网络模型复杂度导致检测速度下降的前提下,利用浅层特征图包含较多细节信息来提高小目标的检测效果,同时汇聚不同尺度池化的特征图信息提高目标多尺度的检测性能。HyperNet网络由KONG等提出[9],该框架集合了多个不同尺寸的特征图,把这些不同层的特征图压缩到一个统一的特征空间形成超特征,利用超特征把深层的高级语义特征、中间的有补充性质特征和浅层的高分辨率图像特征结合在一起,以便在生成候选区域和目标检测时共享这些特征。

图4 改进的深度卷积特征提取Fig.4 Improved convolutional features extraction

如图4所示,Faster R-CNN网络采取的VGG深度卷积特征提取网络包含了5组卷积操作C1~C5,首先利用HyperNet网络框架思想,将浅层C1、中层C3和深层C5融合在一起。为了解决这三层分辨率不一致的问题,将C1层进行最大池化操作得到C1-1,C5层进行线性插值的上采样反卷积操作得到C5-1。为了进一步提取浅层特征的位置信息,采用浅层特征图复用处理方法,将C1层经过2次步幅为2的卷积操作得到C1-2的特征图,利用步幅为2的卷积操作取代池化操作,即避免因池化操作丢失细节信息,同时也利用新的卷积操作提取了与C1-1不同的特征信息。将C1-2与C1-1,C3-1,C5-1先进行局部响应标准化(Local Response Normalization,LRN),然后进行融合得到新的超特征,通过1×1的卷积操作将超特征进行降维处理,得到最终的卷积特征图进行ROI提取以及目标检测。利用LRN进行归一化处理避免了特征信息值的损失[9]。相比较于标准Faster R-CNN网络,新的卷积特征图分辨率更大且包含了跟多的尺度信息,在小目标检测和目标多尺度检测方面都有一定优势。

3.3 针对靶球区域建议提取的优化策略

在区域建议提取过程中,Faster R-CNN网络依靠RPN网络以大小为3×3、步幅为1的窗口扫描特征图,在扫描滑动过程中窗口中心对应原输入图像上一个图像区域的中心点,在每个图像的中心点产生k(k一般为9)个包含了1∶2,1∶1,2∶1这3个比例尺度的锚点区域,对应边界框面积分别包含1282,2562和5122个像素。在目标边界框回归过程中,锚点的比例尺度和大小可以看作是目标边界框的初始建议,锚点越接近真实框的大小, 最终回归后的建议框越接近真实框,目标的检测定位就越加准确。Faster R-CNN中锚点并非针对某一特定目标数据进行设定,而本文针对的合作目标靶球外观接近一个正圆形,考虑到实际应用过程中运动姿态的变化,长短边的比例基本处于1.5∶1以下,因此将锚点区域比例改为1∶1.5,1∶1,1.5∶1;同时考虑到更多针对小目标检测应用,将锚点区域的尺寸进行一定比例的减小,本文设置锚点区域的面积分别为322,642,1282,使边界框回归的过程更加有利于合作目标靶球的检测。

为保证模型训练的效率,与标准Faster R-CNN一样,去除所有边界框超出图像边界的锚点,并采用非极大值抑制对重叠的锚点进行筛选。设置交并比IOU>0.6的样本为正样本,负样本的阈值设置为IOU<0.1。这里正样本阈值小于标准Faster R-CNN阈值的原因是为了将更多正样本加入训练过程而放宽了筛选条件;负样本设置为0.1是为将更多图像中的背景信息加入训练过程,负样本阈值设置较小的同时,配合本文第4部分强背景干扰训练方法可以进一步提高负样本对模型训练的贡献效率。区域建议提取网络的损失函数参照文献[7]中的多任务损失,损失函数定义为:

(1)

其中:i代表一个批次处理中锚点区域的索引;pi代表第i个锚点区域中包含了一个目标的概率,该值由网络预测得出;如果一个锚点区域是一个正标签,其对应的真实区域标签pi*为 1,否则pi*为 0;ti表示预测的边界框的4个参数化坐标向量;ti*是相对应的真实区域边界框的坐标向量。

分类损失Lcls是针对两个类别(目标和背景)的对数损失,定义为:

(2)

对于边界框回归损失,定义为:

(3)

其中:

(4)

对于边界框回归,采用4个坐标的参数如下:

(5)

其中:(x,y),w,h分别代表了边界框的中心坐标与宽和高;x,xa,x*分别对预测应边界框、锚点区域边界框、真实区域边界框;y,wa,h*同样是对应三类边界框的参数;Ncls和Nreg为归一化参数,λ为平衡因子。

4 强背景干扰样本与数据集

4.1 基于背景干扰的困难样本挖掘

深度学习网络在结构与超参数确定后,其最终的检测性能在一定程度上取决于训练数据集的质量[10-11]。一个样本如果很容易地被模型正确分类,那么可以认为这个样本是一个简单样本,它对模型训练起到的贡献较少;若一个样本被模型分类错误,则可认为这个样本为困难样本。相关研究表明,困难样本在模型运算过程中产生较大的梯度值,能够有效地指导模型优化的方向。相比较于产生梯度较小的简单样本,困难样本对于模型训练的有效性有非常重要的影响[12-13]。当前,基于在线负样本挖掘方法(Online Hard Example Mining,OHEM)是常用的深度学习模型改进方法[14-15]。该方法的核心思想是由一张图像中的上百个建议框产生训练模型的样本,这些样本根据分类困难程度进行筛选并排序,在基于随机梯度下降法对网络进行优化的反向误差传递过程中仅针对困难样本进行网络权重调整。对于Faster R-CNN网络,尽管一次迭代的批量大小等于1,但是由区域候选网络RPN产生的建议框成百上千,正适合于随机梯度下降的方法,并且这种实时筛选机制能够很有针对性地进行学习训练,因此模型训练调整很快[15]。

本文在实践过程中发现,仅仅依靠在线负样本挖掘方法仍无法有效解决误检测的问题,原因是在线挖掘的困难样本均由训练样本产生,但合作目标靶球结构外形单一、图像纹理等细节信息较少,可挖掘信息较少,仅通过普通数据集训练并进行在线困难样本挖掘,或着重解决数据不平衡问题的困难样本挖掘方法[12-13]得到的深度学习网络框架容易受到其他相似物体的干扰,导致高误识别率、检测精度大幅下降,严重影响了深度学习网络框架在激光跟踪仪合作目标检测中的应用。为解决这一问题,本文提出一种强背景干扰模拟方法提高模型训练的强适应能力,具体如图5所示,在采集图像制作数据集过程中,增加外形、颜色、尺度大小与目标靶球相近物体放置在靶球的周边,在进行数据标记的过程中,仅对目标靶球进行了标注。以Faster R-CNN为代表的基于区域建议类的目标检测模型在训练过程中会提取几千个样本进行分类得分与边界框定位训练,其中大量训练负样本取自图像中背景区域。相比较于其他困难样本挖掘方法,该方法最大的特点在于着重从训练样本数据源头出发,背景中增加强干扰物有效地增强了部分负样本检测分类的困难程度,同时,困难负样本产生了更加丰富的梯度信息优化模型并提升模型的综合检测性能,针对合作目标靶球检测这类实际应用问题效果显著。

图5 数据集部分图像Fig.5 Images of dataset

4.2 合作目标靶球数据集的建立

本文构建的激光跟踪仪合作目标靶球数据集符合PASCAL VOC数据集格式标准,部分数据图片如图5所示。

图6 目标尺度分布直方图Fig.6 Distribution histogram of target scale

数据集包含2 800张图片,其中约1 000张是合作目标靶球运动状态视频的连续帧图像,其余图像为实验室环境下的静态图像。每张图片仅有一个合作目标靶球,对应的标签信息注明其目标类型(targetball)以及最小外界矩形的坐标作为其边界框真实值。将整个数据集分为训练、验证和测试这3个互无交集图像子集。为了更好地逼近实际应用场景,数据集更倾向于小目标数据的采集,图像中目标区域面积与图像面积之比小于1%的占62%。(以图像分辨率为640×480为准,目标像素面积应小于3 072),同时带有强背景干扰物的图像约为900张,数据集中目标像素的详细面积分布如图6所示。

5实验与结果分析

实验首先着重从两个方面进行对比测试,一方面是分析验证加入强背景干扰物训练对目标检测模型准确率的影响,另外一方面是测试本文在目标多尺度变化与小目标检测改进的效果[16]。

5.1 强背景干扰测试实验

将标准的YOLOV3模型和标准的FASTER R-CNN模型分别利用普通背景训练样本和包含有强背景干扰的训练样本进行训练,用4种训练结果来对比该方法对目标检测性能指标的影响,如图7所示,选取了3张测试样本对检测结果进行对比展示。图7(a)和7(c)分别为YOLOV3和Faster R-CNN经过普通背景样本训练的模型进行测试的结果。从图中可见,YOLOV3模型存在一定的误检测和漏检测,影响了网络的准确率和召回率指标,此外目标边界框定位和分类得分也不理想;而Faster R-CNN模型的主要问题是大量目标误识别导致模型检测准确率较低,从图7(c)中目标分类得分可见,Faster R-CNN给出的部分错误分类得分到达了88%~99%之间。而经过强背景干扰样本训练后,由图7中(b)和7(d)可见,YOLOV3模型不仅提高了目标检测的准确率与召回率,还在目标边界框定位和目标分类得分方面有较大的提升;而Faster R-CNN模型对外形、颜色、大小相似的强干扰物具备了较强的分辨能力,在目标检测准确率、边界框回归和目标分类得分方面都有较好的表现。

图7 不同算法中困难样本对检测精度影响的对比Fig.7 Contrast of effect of hard example on detection precision between different algorithms

5.2 目标多尺度变化与小目标检测对比实验

利用带有强背景干扰的训练样本对标准Faster R-CNN模型和本文改进的Faster R-CNN模型进行训练。采用相同背景下目标尺度有较大变化的测试样本进行测试实验。如图8所示,在一定尺度下,标准Faster R-CNN模型和改进的Faster R-CNN模型对于目标尺度的变化都有较好的检测效果;而当目标距离较远尺度较小时,标准Faster R-CNN模型无法正确的检测出目标,而改进的Faster R-CNN模型对小目标具有非常好的检测效果,在边界框定位和分类得分方面都比标准Faster R-CNN模型具有较大的提高。

图8 改进Faster R-CNN与标准Faster R-CNN的对比Fig.8 Contrast of improved Faster R-CNN with standard Faster R-CNN

最终的性能测试实验选取了627张图片作为测试样本,其中348张为实验室环境样本,279张为人为加入强背景干扰的测试样本,小目标测试样本约占总测试样本的40%。实验在Windows10系统环境下,基于Tensorflow深度学习框架及Pycharm软件平台进行,所有程序均采用Python语言编程实现;同时使用Nvidia Quadro M1000M图形处理器(GPU)进行运算加速。模型训练分为2组进行,第一组从合作目标靶球数据集中抽出1 700张不包含强背景干扰的合作目标靶球训练数据样本对YOLOV3网络、标准Faster R-CNN网络、本文改进的Faster R-CNN网络进行训练;第二组在1 700张训练数据样本中去掉约400张图片,替换为带有强背景干扰的训练数据样本对三种模型进行训练。训练过程中动量设置为0.9,衰减系数设置为0.000 5,初始学习率为0.001,最大迭代次数为50 000,当迭代进行到30 000次时,将学习率乘以0.1。在测试实验指标方面通过计算各个检测模型在测试集上的平均精度均值(Average Precision,AP),统计单张图片处理的平均速度并换算为目标检测速度作为模型性能评价的主要指标。

各模型测试实验结果如表1所示,其中列出了YOLOV3、标准Faster R-CNN、改进的Faster R-CNN三类模型的6种测试结果,其中“+Dataset*”代表该模型训练过程中加入了强背景干扰。由实验结果可见,虽然在检测速度方面相对于标准Faster R-CNN模型有一定的降低,但包含了强背景干扰训练的改进Faster R-CNN模型在检测准确度方面达到了90.11%,相比较于标准Faster R-CNN模型85.96%的精度有比较明显的提升,更是大幅领先YOLOV3模型,能够满足对检测准确率要求相对严格的激光跟踪仪跟踪恢复应用的需要。

表1 合作目标视觉检测对比实验结果

注:+Dataset*表示训练过程中加入了包含强背景干扰的训练样本。平均准确率AP和检测速度均保留至小数点后两位。

6 结 论

本文从解决激光跟踪仪跟踪中断导致测量过程终止、严重影响工作效率的问题出发,探索了基于深度学习方法来提高复杂场景下目标靶球的检测准确度的新思路,研究了基于Faster R-CNN深度卷积神经网络算法模型对激光跟踪仪合作目标靶球进行检测框架,剖析了合作目标靶球在实际应用过程中多尺度变化与小尺度目标检测问题,提出了利用多层特征信息融合与浅层信息复用的改进方法与区域建议锚点设置优化方法,克服了合作目标靶球任意尺度变化与远距离小目标检测效果差的问题,尤其是针对小目标检测的精度相比较于标准Faster R-CNN提升明显,能够更好地满足实际应用需求。同时,针对合作目标靶球外形单一、图像信息较少导致检测模型易出现误识别的问题,提出一种强背景干扰样本方法,通过在训练样本中加入与合作目标靶球外形、尺寸、颜色相近的干扰物,加强有限数据集训练过程中负样本训练的有效性,减少近似目标误检测,提升了模型的检测精度。实验结果表明,本文提出的改进模型的检测平均准确率为90.11%,远高于标准的Faster R-CNN网络与YOLOV3网络,但在实时性方面表现欠佳。在不降低目标检测准确度的同时,采用模型压缩等其他手段来压缩模型提高检测速度是下一步的研究重点。

猜你喜欢

激光样本图像
Er:YAG激光联合Nd:YAG激光在口腔临床医学中的应用
用样本估计总体复习点拨
巧用图像中的点、线、面解题
激光诞生60周年
有趣的图像诗
请给激光点个赞
推动医改的“直销样本”
随机微分方程的样本Lyapunov二次型估计
激光3D长绳
村企共赢的样本