基于卷积神经网络的视觉目标定位研究

2020-06-24温剑锋覃一海

现代信息科技 2020年22期

温剑锋覃一海

摘要：视觉目标定位是计算机视觉研究的重要方向之一，准确度高、稳定性好、速度快是视觉目标定位算法追求的目标，针对当前基于卷积神经网络的视觉目标定位算法在训练模型时需要持续训练和更新，导致计算量非常大、定位精度低、成功率低等不足，提出基于双卷积通道的卷积神经网络模型，通过与目前主流的定位算法进行比较，结果表明该算法具有较高的定位精度和成功率。

关键词：卷积神经网络;目标定位;图像检测

中图分类号：TP391.41;TP183 文献标识码：A 文章编号：2096-4706（2020）22-0113-03

Research on Visual Target Location Based on Convolution Neural Network

WEN Jianfeng，QIN Yihai

（Department of Information Engineering，Guangxi Polytechnic of Construction，Nanning 530007，China）

Abstract：Visual target localization is one of the important directions of computer vision research. High accuracy，good stability and high speed are the goals of visual target localization algorithm. In view of the shortcomings of the current visual target localization algorithm based on convolution neural network，which needs continuous training and updating in training model，resulting in large amount of calculation，low positioning accuracy and low success rate. In this paper，a convolution neural network model based on double convolution channels is proposed. Compared with the current mainstream positioning algorithms，the results show that the algorithm has higher positioning accuracy and success rate.

Keywords：convolution neural network;target location;image detection

0 引言

当今信息技术已经应用在生活的方方面面，人们对基于人工智能技术的智能设备有了更高的期待。而视觉目标作为机器获取信息最直接的手段，已经成为学者研究的焦点。视觉研究对象可分为图像目标和视频目标，通过技术手段从它们包含的信息中获取重要的信息，更好地为人类服务。然而，想从图像或视频目标中提取所需信息，是一项非常复杂的工程。并行技术和深度学习技术的出现，为视觉目标的识别与定位的研究与发展提供了可能。卷积神经网络是近年发展起来可用于研究视觉目标定位的模型，它在目标检测、人脸识别等领域取得了丰富的成果[1]。基于深度卷积神经网络的目标识别、目标检测算法准确率大幅提升，甚至超越了人工识别的准确率[2]。然而，由于可用于视觉目标定位的训练数据集过少，导致模型难以训练出端到端的卷积神经网络模型。有学者尝试将大规模图像识别的数据集训练得到的卷积网络模型迁移到视觉目标定位中，但是这种方法计算量巨大且减弱了卷积神经网络的表征能力。

笔者基于广西高校中青年教师科研基础能力提升项目，对视觉目标定位算法及并行技术展开深入研究。针对上述问题，笔者提出一种基于双卷积通道的卷积神经网络的视觉目标定位算法。传统的卷积神经网络通过单卷积通道来获取目标信息，对于复杂的目标经常出现定位不准或者定位时间过长等不足。本文的卷积神经网络通过构造双卷积通道的方式提高定位效率。根据提取目标不同，第一卷积通道专门用于获取定位目标信息，第二卷积通道专门用于获取检索图像的特征信息，再使用一个全连接层将前两个卷积通道获取的特征信息组合在一起，进而得到目标热图，最后实现目标定位。本文提出的算法有以下特点：

（1）算法可以使用离线模式实现目标定位。

（2）本文的卷积网络模型只学习一次便可以在后续的目标定位中继续使用。

本文的算法运行效率优于其他定位算法，而且对目标的表征能力更加出色。

1 双卷积通道的卷积神经网络模型

根据目标图像的特点，本文首先训练一个分类器，通过判断备选图像与目标图像的相似度来确定目标图像的位置。通过该分类器判断的不同目标不需要持续的在线更新，能大大减少反复在线更新与学习造成的计算压力。接着，我们设计了一个改进的卷积神经网模型，该模型只需两种图像块作为输入，一种图像块作为目标图像块，另一种图像块作为检索图像块，模型的主要工作是计算这两个图像块的相似度，通过相似度的值实现目标定位。在模型中，我们设计的双卷积通道用于提取图像特征信息，第一层卷积通道用于提取目标图像信息，第二层卷积通道则用于提取检索图像信息，最后用全连接层连接前两个卷积核的特征信息。整个模型的结构设计如图1所示。

需要使用损失函数对上述模型进行训练，在训练中不断降低损失函数的值，使训練模型更加接近预测值。使用的函数为：

其中，M为模型的输出响应图，W为权重函数，T为指截断函数，L为损失函数。通过损失函数，可以减少计算样本不均衡引发的缺陷，并提高算法的稳定性。

2 模型训练

为了提高卷积神经网络对视觉目标的定位效率，需要训练足够多的模型。然而，在现有的视觉目标训练领域，只有极少数可用于测试的图像数据，而且这些数据较为单一，不适合本文的模型训练。因此，本文拟采用大规模图像数据集来训练本文提出的模型。大规模图像数据集中有大量可用于训练的高清图像，并且这些图像都已经做好相应的标记。在大规模图像数据集中，我们选择单幅标注图像来训练本文的模型。训练示意图如图2所示，图2（a）表示可用于训练的单幅标记原始图。图2（b）表示检索到与目标相似的图像，图2（c）表示从检索图像中获取到目标位置生成的标记图。考虑到实际的图像存在光照变化、遮挡、变形、快速运动、消失、背景混乱、低分辨率、尺度变化等现象，本文还采用了数据增广技术，提高训练模型的多样性，进而提高模型的定位的精确性。通过上述训练模型，即使目标图像存在干扰，也不会影响模型的定位效果。

由于检测的目标存在光照变化、遮挡、变形、快速运动、消失、背景混乱、低分辨率、尺度变化等现象，会给目标定位带来更大的挑战。因此，本模型每次输入图像块时，都通过随机选择相似度较高的图像作为输入，而且这些图片经过了可信度预测并已经做了特征标记。图像的可信度预测越大，说明与目标相似度越大。可通过式（2）、式（3）计算得到可信度预测值：

其中，Mk为最终目标预测图，Y为输出的二维预测图，cai为预测可信度，oai为随机选择得到的目标图像块，sk为搜索图像块，N为图像块序号，ck为预测可信度，ai为图像帧号，k为图像帧号。

每一张检索到的图像都设定一个可信度阈值，如果可信度预测值小于阈值的图像就会被丢弃，不再作为图像输入。

3 实验结果与分析

本文使用的实验环境为Windows 10操作系统、Tesla k20显卡、Intel Xeon E3 CPU，编程语言为Python，开发工具为TensorFlow。将上述的模型使用两个数据集进行实验测试，这两个数据集分别是OTB2013[3]、OTB2015[3]，这两个数据集包含了大量的测试样本，对本文的算法验证有很强的说服力。

将本文的算法与目前3个主流的定位算法（ECO[4]、MCCT[5]、STRCF[6]）进行对比，首先计算本文算法在OTB 2013、OTB2015数据集上的定位精度，结果如表1所示，从表可知，本文算法在两个数据集上都取得较好的精度，在OTB2013数据集中仅与ECO算法相差0.2%，在OTB2015数据集中仅与MCCT相差0.9%。

接着计算本文算法在OTB2013、OTB2015数据集上的定位成功率，结果如表2所示，本文算法在两个数据集上都取得较理想的成功率。总之，本文的算法不管在定位精度，还是定位成功率方面，都能取得很不错的效果。

接着用本文算法研究在不同干扰因素下的定位精度，表3、表4表示本文的算法与3个较新算法在不同数据集下的定位精度对比情况。表中的IV、OCC、DEF、FM、OV、BC、LR、SV分别光照变化、遮挡、变形、快速运动、消失、背景混乱、低分辨率、尺度变化。从实验结果看，本文的算法能适应不同干扰因素的准确定位，且定位精度比当前某些主流算法还要好。

4 算法分析

本文提出的卷积神经网络算法在进行目标定位时，不需要持续地训练和更新，减少了程序在持续训练时的运算时间，提高了算法的运行效率，而且保持了良好的稳定性。之所以能比部分定位算法更优，主要是因为本文设计了双卷积通道进行特征提取，并进行了明确的分工，避免了图像的重复计算。但由于本文只选了三个主流定位算法作对比，故本文的模型说服力还不够强。

5 结论

本文提出一种双卷积通道的卷积神经网模型，分为目标图像块通道和检测图像块通道，通过将目标图像与备选图像的相似度进行对比，从而实现目标定位。模型避免了定位过程中频繁地训练与更新，在减少算法的计算时间的同时，能获得良好的稳定性和精确度。虽然算法的计算速度与当前主流的一些卷积神经网算法仍存在差距，但是本文的算法仍是很值得研究和探索的。

参考文献：

[1] 张纯纯，冯创意，高统林.基于机器视觉的目标识别与抓取研究 [J].农业装备与车辆工程，2019，57（12）：93-96.

[2] 陈凯.基于深度学习和回归模型的视觉目标跟踪算法研究 [D].武汉：华中科技大学，2018.

[3] 尹宽.复杂情况下目标跟踪算法研究 [D].成都：四川师范大学，2020.

[4] DANELLJAN M，BHAT G，KHAN F S，et al. ECO：Efficient Convolution Operators for Tracking [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition（CVPR）.Honolulu：IEEE，2017：6931-6939.

[5] WANG N，ZHOU W G，TIAN Q，et al. Multi-Cue Correlation Filters for Robust Visual Tracking [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition（CVPR）.Salt Lake City：IEEE，2018：4844-4853.

[6] LI F，TIAN C，ZUO W M，et al. Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition（CVPR）.Salt Lake City：IEEE，2018：4904-4913.

作者简介：温剑锋（1979.12—），男，汉族，广西贵港人，系

主任，副教授，硕士，研究方向：人工智能;覃一海（1986.10—），

男，汉族，广西北流人，专任教師，讲师，硕士，研究方向：人工智能。