基于深度学习的车辆再识别研究进展
2020-11-14张小瑞
张小瑞,陈 旋,孙 伟,葛 楷
(南京信息工程大学 a.计算机与软件学院; b.江苏省大气环境与装备技术协同创新中心;c.数字取证教育部工程研究中心; d.自动化学院,南京 210044)
0 概述
车辆再识别可以理解为一个图像检索的子问题,其目的是对跨摄像机设备中的目标车辆进行检测和跟踪,即给定一个监控车辆图像,在跨设备监控下对该车辆图像进行检索[1-3]。
车牌识别是早期车辆再识别研究的主要方法,目前车牌识别已经得到广泛应用,文献[4-5]均利用车牌信息完成车辆再识别任务。虽然车牌是车辆的唯一标识,但是在一些特殊环境下,车牌信息不能被充分利用甚至不可用。例如,在行驶过程中,摄像头拍摄到的图像不清晰导致车牌信息不完整或由于环境、相机等原因导致图像分辨率不符合要求。此外,在以往大量安全事件中,车牌经常被遮挡、移除甚至伪造[6]。因此,对除车牌以外的车辆信息开展再识别研究是非常必要的。
在深度学习技术出现之前,车辆再识别研究主要集中于传统底层特征提取,例如颜色、HOG(Histogram of Oriented Gradient)[7]和SIFT(Scale-Invariant Feature Transform)[8]。传统提取图像特征的方法虽然具有一定的抗干扰性,但只针对特定任务有效,并且侧重图像某方面特征,不能适应大数据环境。近年来,随着深度学习技术的发展[9],同时研究者受行人再识别研究[10-12]的启发,使深度学习技术在车辆再识别任务上得到了广泛的应用[13]。不同于传统方法,深度学习方法不需要手动设计特征,可以通过神经网络自动学习车辆图像多方面特征,并且能够处理大批量数据。
与行人再识别相比,车辆再识别是一项更具挑战性的计算机视觉任务。因为在不受控制的光照、视角、低分辨率和复杂背景情况下,同一辆车在不同相机视点下的视觉外观变化较大,而同款车型的车辆具有相似视觉外观,它们具有相同颜色和相似模型特征,属于同一款式的不同车辆又具有明显的类间相似性[14]。
目前,车辆再识别研究的发展滞后于行人再识别研究,综述性文献较少并且内容比较宽泛,对基于深度学习的车辆再识别方法缺乏详细描述。本文对现有研究做进一步细化,分析近年来深度学习相关方法在车辆再识别领域中的应用,将其归纳整合为基于表征学习的方法、基于度量学习的方法、基于多维度信息的方法和基于生成对抗网络(Generative Adversarial Network,GAN)的方法,在此基础上比较其中部分代表算法的性能,分析并探讨车辆再识别研究目前面临的挑战和未来发展方向。
1 基于深度学习的车辆再识别方法
车辆再识别可以被简单认为是一个排序问题,即通过训练后的特征网络提取数据库中图像和待搜索车辆图像的特征并计算两者的相似度,进而对数据库中图像进行排序。车辆再识别系统基本框架如图1所示。
图1 车辆再识别系统基本框架
车辆再识别技术可被广泛应用于视频监控和智能交通等领域,实践证明[15],在助推智能交通与智慧城市建设的过程中,车辆再识别具有重要理论意义和实用价值。
本节介绍现有基于深度学习的车辆再识别方法并对其优缺点进行分析。现有方法按训练损失类型可分为基于表征学习和基于度量学习的方法,根据提取的特征信息可分为基于单维度信息和基于多维度信息的方法。此外,本节还介绍一类基于GAN的方法。
1.1 基于表征学习的方法
表征学习是人脸认证[16]和行人再识别[17]常用方法,是再识别领域中的重要基准,其将再识别任务视为分类和验证问题。
(1)
(2)
其中,pk由图片x的标签得到。
由于交通监控视频下统计的车辆车型数量较多,而仅使用ID信息约束较少,在训练过程中容易使网络过度学习,导致过拟合现象,难以对测试样本进行有效区分,因此需要利用车辆图片额外标注的属性信息[20],如车型、颜色等。通过充足的标注信息,训练后的网络不但可以准确预测车辆ID,而且还能预测车辆属性。文献[21]通过设计一个统一的框架有效地组合了ID与属性损失,如图2所示。实验结果表明,结合ID与属性损失比单独使用ID损失提升效果更显著。
图2 结合ID损失与属性损失的网络结构
文献[21]设计的框架只采用了车型属性损失,本文将其推广到每张图片有多种属性。输入图片经过一个共享的网络后,采用两个分支,上分支用于计算ID损失,下分支用于计算属性损失。属性损失为:
(3)
针对车辆再识别任务开展的另一类工作是车辆验证问题。验证网络也是表征学习的常用方法[22],其将成对图像送入到共享权重的卷积神经网络(Convolutional Neural Network,CNN)中,学习得到两张图像的特征,将这两个特征向量融合之后输入一个全连接层,输出一个二维向量,由此判断两辆车是否属于同一ID。假设输入的图像对为X={xa,xb},对应的标签分别为Y={ya,yb},输出二维向量v,则验证损失为:
(4)
若ya=yb,则y1=1,y2=0;否则,y1=0,y2=1。
表征学习将车辆再识别视为图片分类问题,把具有相同ID的车辆当作是一类图片,其模型比较简单,在数据集容量较小时容易收敛,但当ID数量增加到一定程度后,网络最后一层全连接层维度就会变得非常高,参数量巨大,训练出现困难。
1.2 基于度量学习的方法
度量学习[23]将提取的特征映射到特征空间,在这个空间里不同特征能够得到很好区分。不同于表征学习,度量学习直接通过网络学习特征的相似度。以车辆为例,度量学习目的是让特征空间中同一ID车辆间的距离小于不同ID车辆间的距离。对比损失[24]、三元组损失[25]都是比较常用的度量学习损失函数。
对比损失用于训练孪生网络[26]。孪生网络由两个权重相同的神经网络组成,用于衡量两张输入图片的相似度。孪生网络每次输入一对图片X1、X2,若为同一辆车,则这一对训练图片标签y=1;否则,y=0。图片经过网络学习得到特征向量fx1、fx2,对比损失函数表示为:
(5)
通常使用欧氏距离作为度量函数来表征相似度,在式(5)中,dx1,x2是由特征向量fx1、fx2计算得出的欧式距离,margin是设置的训练阈值参数。
三元组损失在度量学习中的应用最为广泛,很多度量学习方法都是在三元组损失函数上做的不同改进。三元组损失的优势在于细节区分。与对比损失相比,其输入由二输入变成三输入,包括一张固定图(anchor)a、与a属于同一ID的正样本p以及与a属于不同ID的负样本n。三元组损失函数表示为:
Lt=max(da,p-da,n+margin,0)
(6)
其中,da,p、da,n分别为a、p,a和n经过网络所得特征向量计算得出的欧式距离。
特征提取网络在使用三元组损失训练学习的过程中,不断让anchor“拉近”与它属于同一类的样本,“推远”不同类样本,从而达到“同一类样本靠得更近,不同类样本离得更远”的目的,如图3所示。
图3 三元组损失学习过程
虽然传统的三元组损失有助于训练卷积神经网络的判别能力,但也有一定的局限性[27]。三元组损失函数容易在“拉近”和“推远”过程中导致移动方向错误的情况,例如,为了“推远”anchor的负样本,导致该负样本远离其自身的样本集合,出现该样本难以出现在其他三元组集合中的情况。在修正该错误的过程中,会导致网络的收敛速度变得缓慢。
针对这一问题,文献[28]提出了DRDL方法,将三元组损失改进为簇耦合损失(Cluster Coupling Loss,CCL)。如图4所示,该方法利用一个基于VGG的双分支深卷积网络,结合属性损失,上支根据车型属性标签提取车型特征,下支利用CCL根据车辆ID提取身份信息,再通过全连接层整合两个分支的信息进行融合,利用CCL优化整体结构的参数。文献[28]方法主要的优势在于:不同于三元组损失的输入,CCL输入一组正样本集和负样本集,不再随机选择anchor,而是选择正样本集的中心,目的是将正样本聚集在一个中心形成一个簇,同时负样本远离这个簇。此外,其在反向传播的过程中也不只利用3个样本的损失值来优化网络,而是利用一组样本的损失值,从而在每一次反向传播的过程中学习到更多有用的特征,使网络收敛得更快,在一定程度上解决传统三元组收敛缓慢和锚点选择敏感的问题。
图4 DRDL网络框架
DRDL虽然对三元组损失函数做出改进,但采用的仍然是随机采取样本组的方法,而三元组随机采样会出现当anchor与正样本的距离小于与负样本的距离时三元组损失学习不到任何特征的情况,这增加了网络训练的时间复杂度。
文献[29]提出一种改进的三元组样本抽样方法来纠正这一误差。对若干个正对进行采样,即对同一辆汽车的图像进行采样得到一组(A,B)。利用每对(A,B)产生两个三元组:在一个三元组中,A是锚点,B是正样本;在另一个三元组中,B是锚点,A正样本,从其他三元组中随机选择负样本。该方法降低了采样的随机性,同时对特征而不是原始图像进行采样,避免图像重复经过CNN,从而使图像特征得到重用,缩短训练时间。
针对同一类别车辆差异大和不同类别车辆差异小的问题,文献[30]提出了组群敏感三元组嵌入方法。求出每一类车辆的类中心,根据类间损失使同类不断向类中心移动,不同类远离类中心。将同一类车辆用K-means算法根据角度、颜色、背景等属性划分为若干小组,每个特定组的车辆图像都应具有相似的属性,求出每一组的组中心,根据组内损失使同一组不断向组中心移动,不同组保持一定距离。该方法借助簇耦合损失的优势并且利用了组内损失,可以显著减小类间相似性和类内差异性对车辆精细识别造成的负面影响。
在度量学习中,只使用度量损失函数往往对样本距离的约束过于简单,因此,研究者通常将其与表征学习相结合,通过联合损失优化网络实现不同损失函数的互相约束,从而使网络能够学到更具代表性的特征。
1.3 基于多维度信息的方法
根据提取的特征信息,车辆再识别方法可以分为基于单维度信息和基于多维度信息的方法。单维度信息指仅从一个方面对整幅图像提取的一个特征,在此不做赘述。多维度信息指不仅从单一方面获取的图像特征,而是利用多种提取特征的方法或者利用车辆本身的多个特点提取到的多维度特征。本文将基于多维度信息的方法进一步划分为基于多模态学习和基于多特征两类方法。
1.3.1 基于多模态学习的方法
基于多模态学习的方法将传统方法与深度学习方法提取的多特征进行融合。文献[31]提出多模态方法FACT,利用BOW-SIFT[32]提取纹理特征,通过BOW-CN[33]提取颜色特征,利用Google Net[34]学习语义特征,将提取到的3种特征直接拼接到一起得到图像的多模态特征,最后采用欧式距离计算待搜索与待检索图像之间的相似度。文献[35]在FACT方法中添加车牌验证信息和时空相关性信息,构建一种基于深度神经网络的渐进式车辆再识别框架PROVID,利用时空特性对车辆进行重新排序,进一步改进了车辆搜索过程。FACT模型结合了手工特征与深度特征,虽然深度特征和手工特征融合实现了更健壮、更有鉴别能力的特征表示,但这两类特征存在于不同特征空间,若直接通过拼接的方式融合在一起,无法充分挖掘它们之间的互补关系。FACT采取的融合策略只是将不同特征在最后直接拼接,没有充分挖掘不同类型特征之间的互补相关性。文献[36]设计一种多模态度量学习体系结构,如图5所示,该结构集成了LBP[37]与BOW-CN功能,并将深度特征和手工特征融合到一个端到端优化网络中。与FACT融合策略不同,其将LBP与BOW-CN直接作为神经网络的输入,分别经过一个多层感知机与CNN学习后再进行融合,而不是在最后一层直接拼接,因而是一种更鲁棒、更具识别性的特征表示方法。
图5 多模态度量学习框架
多模态方法提取了低层次的特征和高层次的语义特征,利用两种特征的融合使得车辆特征更有区分度。但该方法需要设计额外的手工特征与多模态特征的融合策略,而手工特征对车辆特征表征能力较差。
1.3.2 基于多特征的方法
早期的车辆再识别研究主要关注点是全局特征[38],即网络对整幅图像提取的一个特征。一般的卷积网络提取的都是全局特征,然而由于全局特征存在单一性,因此一些研究开始关注车辆的局部信息,利用局部与全局联合的多特征,其中局部特征是指网络针对所关注的关键局部区域提取的局部特征。
文献[39-40]考虑到两辆车外观难以区分时可以利用挡风玻璃区域标志的特征(如年检标志颜色、数量、位置等),提出将挡风玻璃的局部特征与全局特征进行融合。文献[41]建立一种具有方位不变性的特征嵌入模型,为车辆图像标注20个关键点用以提取不同位置的局部特征,并将提取的局部特征与全局特征进行融合,进而得到车辆的外观特征向量。虽然该方法考虑了角度和局部特征对车辆再识别的影响,但要在数据集图片上标注关键点,面对几十万量级的车辆数据集,标注工作量十分庞大。因此,从可行性与工作量上考虑,该方法可行性较差。文献[42]为避免对关键点进行额外的注释和预测,提出采用更简洁的RAM局部特征提取方法。如图6所示,RAM由4个分支构成,由上至下,属性分支学习颜色以及模型等属性,Conv分支学习全局特征,BN分支对全局特征归一化,局部分支学习局部属性。其中,局部分支对提取的全局特征由上到下水平平均划分3个区域,分别为top(t)、middle(m)和bottom(b),将每个分支都作为一个分类任务进行训练。RAM避免了对关键点的标注,训练模型也比较简洁,可行性较高,但此类方法也存在一些弊端,例如不能很好地解决一些姿态问题。
图6 RAM网络框架
文献[43]利用预训练的YOLO网络[44]检测车窗、车灯、车牌等感兴趣区域,将更多的多维度局部特征引入车辆再识别框架中,以增强网络对车辆模型细微差异的学习,提升局部特征在学习过程中的影响力。虽然局部特征是区分相似车辆的重要突破口,但并非所有局部特征都具有区分度,一些不具备区分度的局部特征对网络不仅不能起到监督作用,而且还增加了计算量。因此,文献[45]建立以局部区域引导的注意力模型PGAN,其从目标检测模型中提取每幅车辆图像的局部区域,为网络学习提供一定范围的候选搜索区域。在此基础上,利用局部注意模块学习每个候选区域的软注意权重,其中,高关注权值代表最具区别性的区域,低关注权值则表示无效区域。通过全局特征和最具辨识性局部区域的联合优化,PGAN具有较出色的再识别效果。
基于局部与全局多特征的车辆再识别方法,采用额外增加的标注信息、注意力或分块机制,使网络在学习的过程中关注更具区分度的特征,提升了识别准确率,但同时也存在额外标注、计算量大等缺点。
1.4 基于GAN的方法
近年来,GAN[46]成功应用于许多计算机视觉任务中,如图片生成[47]、风格迁移[48]等,基于GAN的再识别方法也开始被关注。GAN在行人再识别上的主要应用[49]包括生成行人图像扩大数据集、进行风格迁移减少跨相机带来的风格偏差以及实现姿态迁移等。然而,不同于行人图像,凭借车辆的单视角图像很难得到准确的识别结果,例如仅用车辆的侧视图很难判断出其他视图。因此,在车辆再识别任务中,GAN被用来为每个图像生成多视角特征,其设计思想是将单视角车辆图像作为GAN生成网络的输入,将真实的多视角图像作为判别网络的输入,通过生成器与判别器的不断博弈,使生成器推断单视角车辆在其他视角下的特征,从而生成逼真的多视角图像。
文献[50]建立一种视点感知的多视点推理模型VAMI,其采用视图感知注意模型自动选择突出区域,并从特征中剔除无用信息,得到5个视角重叠特征。在此基础上,通过GAN体系结构推断出具有不同视角特征的一个向量,从车辆单视角图像中学习生成具有多视角的全局特征。由于该方法使用了车辆的显著区域特征,并且利用显著性多视角特征生成多视角的全局特征,因此较传统GAN生成车辆多视角特征的方法更合理,适合跨摄像头视频监控下的车辆再识别任务。
文献[51]基于GAN在车辆再识别中的应用研究,提出EALN方法。该方法利用两个GAN,一个用于生成多视角图像Gview,另一个用于生成与输入图像相似的图像Ghard。Ghard图像作为负样本,能够有效提高网络辨别能力,更好地区分相似的图像。EALN利用Gview和Ghard生成的样本以及训练集来训练一个更具鉴别性的嵌入模型Demb,在测试阶段,Demb作为特征提取器,使用生成的Gview图像与输入图像实现特征融合。实验结果表明,与单独使用一个GAN生成多视角图像的方法相比,加入Ghard图像作为负样本的方法可使识别效果得到提升。
GAN可以针对单视角图像生成多视角特征,在一定程度上解决跨视角的车辆再识别问题,也可用于生成更多的图像样本。但是使用GAN生成图像时存在难以收敛的问题,同时整体的模型结构和训练过程也比较复杂。
1.5 各类方法的总结与比较
按网络训练损失分类,可将车辆再识别方法分为表征学习与度量学习两类。表征学习将车辆再识别看作是图片分类问题,模型比较简单,易于训练,但容易在训练过程中出现过拟合现象,且当ID数量增加到一定程度后训练比较困难。度量学习直接学习出图像之间的相似度,不需要根据ID数量来调整网络的结构,可以方便地扩展到新的数据集。然而,度量学习训练和收敛时间比表征学习时间长,并且在调参方面也有一定的难度。
按照提取的特征信息,可将车辆再识别方法分为基于单维度信息和基于多维度信息两类。基于单维度信息的方法仅从一个方面对整幅图像提取一个特征,对车辆图像的表征能力不强。基于多维度信息的方法又可被进一步划分为基于多模态学习和基于多特征两类方法。
1)基于多模态学习的方法将传统方法与深度学习方法提取的多特征进行融合。由于传统方法只对特定任务有效,泛化能力较差,因此在CNN刚开始流行时,出现了传统方法结合深度学习的多模态方法。多模态方法提取了低层次的特征和高层次的语义特征,使得特征更有区分度,但是需要设计额外的手工特征与多模态特征的融合策略。虽然可以结合手工特征与深度学习特征提取方法,但手工特征依然不具备突出的表征能力。
2)基于多特征的方法将局部与全局联合的多特征作为车辆图像的表征。利用全局特征的方法把图片直接输入卷积网络做平均池化处理后便可得到全局特征,具有计算简单、计算量小的优点。但是在姿态变化大、图片存在遮挡和全局特征相似而只有局部细节不相似等情况下,全局特征容易导致误判。利用局部特征的稳定性在一定程度上可以解决以上问题,但也存在一些缺点。通常全局特征与局部特征是互补的关系,因此,多数研究将局部特征和全局特征联合使用,把两种特征融合成多特征作为输入图像的特征。
GAN可以针对单视角图像生成多视角特征,在一定程度上解决跨视角的车辆再识别问题,也可用来生成更多的图像样本。但是GAN在训练过程中需要不断平衡生成器与判别器,难以使网络达到收敛的状态,同时整体模型比较复杂。
2 相关数据集与典型方法
2.1 相关数据集
从传统的特征方法到深度学习自动特征提取方法,车辆再识别技术的发展与大规模车辆数据集的发展密不可分。近年来,大规模的车辆再识别数据集先后出现,这也反映了基于深度学习的车辆再识别研究具有蓬勃的发展趋势。这些数据集各自具备不同的特点,本文列举以下4个常用的车辆再识别数据集:
1)VehicleID[28]。该数据集源于多个互不重叠的监控摄像头基于两个视点(前面和后面)的拍摄,包含26 267辆车共221 763幅图像。VehicleID数据集对车辆的颜色、车辆款式、车辆ID进行了标注,包含更多的车辆图像和身份信息,适合车辆细粒度检索。由于该数据集规模较大,因此被划分为小规模数据集、中等规模数据集和大规模数据集,所包含的车辆ID数量分别为800个、1 600个和2 400个。但其中大部分车辆图像都是在近距离地点拍摄,并且只包含前面和后面两个视点,不能反映现实路面的复杂情况。
2)VeRi[31]。该数据集包含619种车辆模型共40 000幅车辆图像,这些图像由20台摄像机在多种不同的交通场景下拍摄得到,每一辆车被2个~18个不同位置的摄像机捕获,因此,车辆图像存在不同分辨率、不同背景和遮挡的情况。在VeRi数据集中,每幅车辆图像都具有详细的标注信息,包括车身颜色、车辆款式、品牌等。该数据集能够反映现实世界交通场景的实际情况,适用于车辆再识别任务。
3)VeRi-776[35]。该数据集是VeRi数据集的扩展,包含776辆车共50 000幅图像,其不仅具备VeRi数据集的标注信息,而且还增加了对车牌和时空信息的标注,如车牌信息、车辆被拍摄的时间以及不同摄像机之间的距离。VeRi-776数据集是提供时间-地理信息的数据集,可用于车辆重识别和车辆跟踪等任务。
4)VRID-1[39]。该数据集包含10个常见的车辆款式,每个款式有100辆不同的车,每辆车有10张在不同地点拍摄的图像,总计1 000辆车10 000幅图像。虽然由10个视角拍摄,但多数都为车身正面图像,因此,该数据集主要用于评测同一款式或类型车辆的重识别方法。
分别从样本数量、车型数量、视角个数、发表年份等方面对上述4种数据集进行比较,如表1所示。
表1 4种常用数据集的比较
2.2 评价指标
mAP(mean Average Precision)和Rank-1是衡量车辆再识别算法模型的主流评价指标。
1)mAP即PR曲线面积的平均值。PR曲线面积可由精确率和召回率得到,计算公式如下:
(7)
(8)
其中,P为精确率,R为召回率,TP表示预测训练集中为正例且实际也是正例的个数,FP为预测正例但实际上为反例的个数,FN为预测为反例但实际上为正例的个数。以精确率和召回率分别为横纵坐标绘制PR曲线,计算围成面积得出平均精度。
2)Rank-1表示搜索后返回图像集中的第一张图像是正确图像的概率。
2.3 典型方法的总结与比较
针对上文介绍的基于深度学习的车辆再识别方法,对算法机制和优缺点进行对比,如表2所示。同时选择VeRi-776与VehicleID数据集作为示例数据集,比较多种典型方法的mAP和Rank-1值,如表3所示。
表2 多种基于深度学习的车辆再识别方法比较
表3 多种方法在VeRi-776和VehicleID数据集上的mAP和Rank-1指标比较
BOW+CN是一种效果较好的传统方法,但从表2和表3可以看出,基于深度学习的方法都要优于BOW+CN在车辆再识别上的表现,由此可见,深度学习逐渐取代了传统方法在车辆再识别上的应用。在传统方法到深度学习的过渡阶段,传统方法与深度学习方法相结合的多模态方法被相继提出。多模态方法依然依赖一些手工特征并且需要多模态特征的融合策略,可以看出,FACT、MEL虽然比传统方法效果好,但是仍然不能很好地解决车辆再识别问题,手工特征仍然缺乏表达车辆身份的能力。
2017年后车辆再识别研究主要关注深度学习自提取特征方法,早期的单损失也逐渐发展为多损失。其中,DJDL组合了分类、对比和三元组损失,在VehicleID数据集上表现突出,许多方法根据三元组损失的缺点对其做出改进。早期对图像特征的研究集中于全局特征,之后研究者开始将局部特征与全局特征联合使用:OIFE使用关键点提取局部特征,但标注工作量较大;RAM考虑分块特征,在VeRi上的平均精度比OIFE高出13.5%,在VeRi数据集上效果也比较突出;PGAN采用注意力机制获得了最具辨识性的局部区域,在两个数据集中的综合表现都优于其他方法。随着GAN发展,其被逐渐用于车辆再识别,从表2和表3可以看出,基于GAN的识别效果也逐渐提升,其中EALN效果最佳,原因在于此方法不仅生成多视角图像,而且还应用GAN生成相似样本作为负样本集。
近年来,基于深度学习的车辆再识别研究发展迅速并且方法多样。从发展趋势来看,其由单损失、单特征逐渐发展为多损失、多特征联合的方法。可以看出深度学习对于车辆图像具有强大的特征表达能力,但是与行人再识别相比,目前车辆再识别的准确率仍较低,不能满足实际应用要求。
3 面临的挑战与发展方向
通过上述分析可知,基于深度学习的车辆再识别研究虽然取得了一定的成果,但在实际应用中依然面临严峻挑战,主要体现在以下5个方面:
1)需要构建真实、高质量的数据集。目前公开的车辆数据集规模都较小,数据集中的车型类别较少,并且车辆颜色单一、车辆数量不足。而现实监控中车辆数量庞大,车型、颜色成百上千,数据集的图像很难反映现实世界监控,因此,需要构建更能反映真实交通环境的高质量车辆数据集。
2)设计领域自适应的车辆再识别方法。观察表3中的Rank-1值可以发现,同一方法在VeRi数据集上Rank-1值高于VehicleID数据集,表明同一方法在不同数据集上不能达到同样的效果。车辆再识别技术的应用是非常广泛、灵活的,需要应用到各个不同场景,根据每个不同的场景都重新训练一个模型效率较低,因此,利用领域自适应的方法将一个交通场景下训练的模型应用到新的场景是一个值得研究的课题。此外,也可以使用Cycle-GAN来实现不同车辆数据集之间风格的迁移,以提升车辆再识别技术在不同场景下的应用能力。
3)减少标注量的使用。目前多数车辆再识别方法都属于监督学习,需要提前对数据进行标注,并对数据集中所有车辆ID、颜色、视角、车型等信息进行人工标注,这会耗费大量的时间、精力且不能保证标注的正确无误。利用半监督学习模型可使用更少的标注数据来获得更有效的车辆特征表示,也可利用迁移学习将其他数据集训练的模型迁移至缺少标签信息的目标数据集,同时,可进一步利用摄像头之间转移时间的分布和位置信息,得出数据集中车辆的时空分布规律并迁移至目标数据集,从而高效完成车辆再识别的任务。
4)设计基于视频的车辆再识别方法。目前多数车辆再识别方法都是基于单帧图像的,而在现实交通场景中,车辆的图像都是由视频序列得到的,单帧车辆图像一旦出现遮挡,算法的鲁棒性就会明显降低。因此,需要设计基于视频的车辆再识别方法,当某些图像帧出现遮挡,可以通过其他帧的图像信息对目标车辆进行识别,从而得到较好的识别效果。例如,可以利用CNN提取车辆图像特征,同时通过递归循环网络提取时序(车辆运动)特征,利用融合图像内容信息和运动信息提高车辆再识别的准确性和鲁棒性。因此,直接基于视频图像采用端到端的方式搜索目标车辆将是未来亟需解决的一个问题。
5)设计特定场景下的车辆再识别方法。目前,多数车辆再识别方法基于光照较好的开放道路,而在夜间、涵洞、隧道等特定场景下,RGB相机失去了作用[52],需要匹配RGB图像与红外图像进行跨模态的车辆再识别。由于红外图像具有异构性,视觉特征差异较大,正常日间交通场景下的车辆再识别模型不再完全适用于跨模态识别,因此可借鉴一些跨模态行人再识别方法,如利用GAN生成对应的红外图像,将RGB图像风格转换成红外的风格[53],或利用变分自编码器(Variational Auto-Encoder,VAE)对车辆RGB 图像和红外图像通过VAE生成中间的隐向量,将不同模态的车辆图像映射至同一标准正态分布空间中[54],实现不同模态数据之间的相互转换,使同一车辆不同模态下的特征变得更为相似,从而有效解决特定场景下的车辆再识别问题。随着车辆再识别技术的不断完善,解决跨模态的车辆搜索将是一个更具挑战且更具发展前景的研究方向。
4 结束语
本文总结车辆再识别领域中深度学习应用的研究现状,从算法特点及结构方面介绍经典的车辆再识别方法并进行分类、评估,对比不同方法在4种常用数据集上的识别效果。通过分析深度学习在车辆再识别应用中的有效性,指出基于深度学习的车辆再识别是未来发展的重要方向,但面对智能交通场景的应用需求,车辆再识别的发展将面临更多挑战。因此,研究者应针对领域自适应、视频、特定场景等问题进行深入研究,提升该技术在现实交通场景下的应用能力。