一种多摄像头车辆实时跟踪系统
2023-09-20贾子彦
崔 瑞,贾子彦
(江苏理工学院,江苏 常州 213000)
0 引言
随着城市现代化、智慧化进程不断加快,城市车辆的使用也越来越普遍,监控摄像随处可见。与此同时,车辆的系统管理正在向智能化过渡。多摄像头环境下的目标车辆的检测和跟踪已经日益引起高度重视,成为当下的研究热点。目前,智能视频监控主要有两大关键技术:一是对运动目标的识别跟踪;二是对目标行为的定义[1-2]。
多摄像头车辆识别与跟踪是现代智能交通系统中研究的重点内容。在多摄像头的切换过程中,可能出现因目标车辆的外形检测发生变化导致错检、漏检的情况。尤其是在十字路口等事故高发地点,监控视频背景复杂、目标车辆遮挡等问题也对识别跟踪的准确度及误检率提出了巨大的挑战[3-4]。
对于同一车辆在多摄像头重叠监控区域下的定位,不仅是区别于单一摄像头车辆的识别与定位,而且也是多个摄像头车辆的识别与定位的难点所在。对于同一车辆的识别既包括对同一车辆在不同摄像头监控区域下的匹配确定[5],同时也包括对车辆出现被遮挡状态时的判断,通过对车辆的行驶状态和被遮挡情况的分析判断,完成同一车辆在不同监控区域下的连续识别与跟踪。
针对上述问题,本文提出一种多摄像头车辆实时跟踪系统。该方法首先采用车辆检测算法进行车辆的识别,同时结合多个摄像头之间的单应性矩阵来确定多个摄像头重叠区域下同一车辆的位置,然后结合HSV颜色空间和车辆特征来进行车辆的匹配,提高车辆的识别匹配精度,最后将特征识别和全卷积网络的跟踪算法结合起来,实现多角度对车辆的实时跟踪。本文的应用场景以十字路口为主。本文提出的车辆跟踪流程如图1所示。
图1 车辆跟踪流程
1 多摄像头车辆识别与定位
1.1 车辆检测模型
YOLO算法系列在车辆检测方面有着非常显著的识别能力。近些年来,随着科技的发展和变迁,YOLO算法系列不断地更新换代,而YOLO系列近几年最新推出的YOLOv5模型则是更加适合当代工程和实际应用的需求。
目前,YOLOv5算法有4个不同的版本,每个版本之间的网络结构有些许的差别[6]。本文采用的YOLOv5s算法是4个版本中网络最小的版本,主要以检测像车辆等之类的大目标为主。相对于其他的版本,YOLOv5s的检测速度快,识别准确度比其他算法高,非常适合在嵌入式设备中应用。本文对出现在交通视频中的各种交通车辆进行检测,选择YOLOv5s结构进行研究。
YOLOv5s网络主要有3个组成部分。
(1)Backbone:提取特征的主干网络,主要用来提取图片中的信息以供后面的网络使用。常用的Backbone有resnet系列(resnet的各种变体)、NAS网络系列(RegNet)、Mobilenet系列、Darknet系列、HRNet系列、Transformer系列和ConvNeXt。主要结构包括focus、conv、bottle-neckcsp和空间金字塔层。
(2)Neck(空间金字塔池化):它是通过将图像特征进行糅合并重新组合成一个新的网络结构,将提取到的图像特征传递到预测层。
(3)Head:主要是针对图像的特征进行预测,然后生成检测框并且预测其类别。
本文的车辆检测方案使用改进后的YOLOv5s检测算法对车辆数据集进行训练,并引入CA注意力机制,用改进后的检测模型对相关的车辆数据集进行测试,经过实验验证提高了检测精度,更好地完成车辆检测目标。
1.2 多摄像头空间模型的确立
单应性矩阵能够将十字路口4个摄像头之间的相互关系形象生动地表达出来,通过将拍摄到的同一车辆不同角度的图片进行像素坐标之间的变换,能够实现车辆在不同监控角度下的像素位置的转换,从而实现同一车辆在不同监控视角下的车辆位置的定位。在通常情况下,单应性矩阵一般采用人工标定的方法来进行特征点之间的匹配,但是由于人工标定会产生一定的误差,导致得出的单应性矩阵也存在一定的误差。因此,鉴于这一问题,本文采用精确的棋盘格来求取匹配点,结合张正友棋盘标定的方法,求取相对准确的单应性矩阵。首先,打印一张8×8的黑白相间的棋盘方格;其次,将打印好的棋盘格放置在十字路口的中间,用4个方向的摄像头对其进行拍摄;然后,对4个视角下的棋盘格图片进行特征点的检测;最后,根据棋盘格中获取的匹配点求取4个摄像头之间的单应性矩阵。
通过模拟十字路口4个摄像头同时对视野区域内的棋盘格上特征点求取单应性矩阵,对同一标定点在4个摄像头之间的空间位置进行定位。本文根据实际十字路口的环境,按照一定的比例搭建了十字路口的实际模型进行研究。本文采用UA-detrac车辆检测数据集与自建数据集进行三维空间模型构建,求取单应性矩阵。在自建数据库中,在模型上放置标记物进行标记,按照东西南北4个方向分别标定为1、2、3、4号摄像头,同时以第3摄像头为基准,分别求取1、2、4号摄像头与该摄像头的转换矩阵H13、H23、H43。自建数据库的标定如图2所示,红圈表示选取的特征匹配点。
图2 人工标定图
其他视角到该视角的转换矩阵为:
经过本文实验证明,与人为标定特征点求取单应性矩阵的方法相比,用棋盘标定通过特征点之间的匹配进行单应性矩阵的求取精度会更高,这是由于相对于人工标定,采用棋盘标定的方法,匹配点的数量更多,相互之间匹配点的位置关系会更加准确,减少了人为标定方法产生的误差,同时还提高了求取单应性矩阵的准确性。
1.3 车辆颜色特征匹配
车辆的颜色特征能够更加直观地反映车辆的外部整体信息,通常采用RGB颜色空间与HSV颜色空间来提取车辆的颜色特征。RGB颜色空间和HSV两个颜色空间虽然都是用来表示图像的颜色特性。相比而言,RGB颜色空间获取车辆的颜色特征更加准确。HSV颜色空间更容易被人眼所接受,从而更方便人们观察。因此,本文首先通过RGB颜色空间获取车辆的全局外观颜色特征,之后再转换到HSV颜色空间进行颜色特征的量化,车辆的颜色特征可以直观地反映车辆的全区信息,由于HSV颜色空间可以对颜色空间进行量化,降低颜色空间的特征维数,从而减少提取匹配的计算量,提高算法的运算效率。HSV颜色空间具有自然性,与人类的视觉神经感知接近,反映了人类对于色彩的观察,同时有助于查找图像。
由此分析,本文采用了基于HSV颜色空间模型对车辆的全局外观进行颜色提取。通常来说,拍摄到的车辆图像基本都是以RGB的方式保存。图像从RGB颜色空间转换到HSV空间。RGB颜色空间将图片进行R、G、B的3种通道的划分,设(r,g,b)分别是一个颜色的红、绿和蓝颜色的坐标,他们的值是0~1的实数,令max等于r、g、b3个分量中的最大值,min等于r、g、b3个分量中的最小值,则从RGB颜色空间到HSV颜色空间的变换过程可用如下公式来表示:
ν=max
输入的车辆图片的颜色特征通常用颜色直方图来表示,它的算法简单,速度较快。它具有尺度平、平移和旋转不变形的特征,在特征提取、图像分类方面有着非常好的应用。
本文通过HSV颜色空间对多组相同车型不同颜色和相同颜色不同车型的车辆分组图片进行颜色特征的提取和匹配。本研究对UA-detrac车辆检测数据集和自建模型拍摄的多角度下不同颜色的车辆进行颜色特征提取,并计算其颜色相似度。对比结果如表1所示。
表1 颜色特征相似程度对比结果
通过表1的颜色特征相似度的结果可以看出,颜色特征相似度越大,表示两辆车之间的相似程度越高。相同的一辆车在4个方向下的相似度的范围均在0.8以上,颜色相似的两辆车之间的相似度均在0.8以下。颜色不同但是车型相同的两辆车之间的相似度均在0.6以下。由此可知,颜色特征可以用来区分车型相同或相似但颜色差别大的车辆。同一辆车在不同摄像头的监控视野内由于拍摄角度的问题会出现导致同一辆车的颜色特征存在一定的差异的情况发生。若是直接将相似度设置为0.8可能会存在在不同的监控角度下,同一车辆被漏检的情况。若阈值设置得过低又可能误检一些颜色相近的车辆。只是颜色特征识别并不能满足不同角度下车辆的匹配,存在一定的缺陷,因此还需要通过局部特征的匹配来提高匹配的精度。
1.4 SURF特征匹配
鉴于颜色特征能针对局部特征对于颜色信息不区分这一缺点进行补充,而SURF的特点是具备光线照射、角度的调整以及尺寸不变性,速度比较快而且相对比较稳定。由于仅是局部特征或者仅是全局特征很容易发生在多摄像头切换角度时出现跟踪错误的信息,从而导致跟踪失败。因此,本文将全局特征和局部特征结合起来,从而提高匹配的准确性。
相对而言,SURF特征提取的数量虽然比SIFT特征提取少很多,但还是存在错误匹配的情况。因此,本文根据SURF的算法特性,特征匹配点之间的欧式距离越近,相似度越高,匹配得越准确。对匹配点之间的欧氏距离进行筛选,选择合适的阈值,对欧式距离进行排序,从而选出最优的SURF特征匹配点,减少匹配的误差,降低错误匹配的概率。
2 融合多特征与全卷积孪生网络的跟踪算法
因为在多摄像头切换角度时对同类型的车辆误检、漏检的情况时有发生,所以本文对全卷积孪生网络跟踪算法中的图像特征向量相似度与多特征融合进行改进,并引入注意力通道机制网络结构,针对错检、漏检的情况进行改进,提升准确度。
使用上述提到的HSV颜色特征提取和SURF特征作为匹配的特征,与全卷积孪生网络跟踪模型计算的相似度进行结合,即使在发生目标车辆部分遮挡的情况下,在切换到另一角度的摄像头时仍然能对同一车辆继续进行定位跟踪。在出现完全遮挡的情况或者在多摄像头角度切换后,目标车辆短时间内未再次出现的情况下仍然继续工作,在等待目标车辆再次出现时,继续对目标车辆进行定位检测与跟踪,以保证目标车辆的持续跟踪。
跟踪模块首先利用全卷积网络训练的跟踪模型提取目标车辆图片,通过提取检测车辆图像的特征向量,计算目标车辆与待检测车辆之间的相似度,然后通过HSV颜色空间得出车辆的全局特征的相似度,最后对SURF特征进行车辆的局部特征匹配,过滤掉错误的匹配点,提高准确度,因为SURF特征点之间的距离长短表示特征点之间匹配值的高低,所以在所有检测到的车辆中选择特征点之间距离最短的也就是匹配值最小的目标车辆,对目标车辆进行定位,并利用上述计算的3种目标车辆判断的值对初定位的目标车辆进行阈值比较处理,从而最终定位目标车辆。目标车辆实验结果如表2所示。
表2 在自建数据库上的实验结果 (单位:%)
3 结语
本文提出的多摄像头车辆实时跟踪系统,通过多个摄像头之间的单应性矩阵对十字交通路口的车辆进行定位,并结合颜色特征和SURF特征进行匹配,利用多特征和全卷积孪生网络相结合的跟踪模型,得到最终的检测结果,在车辆的检测和跟踪程度上有一定的提高。该系统在一定程度上解决了因遮挡问题造成的误检、漏检的问题,提高了检测精度和跟踪的准确性。根据实践表明,本文提出的方法效果比单一摄像头的检测方法更加可靠。