APP下载

融合注意力机制与全局特征网络的行人重识别算法研究

2023-01-16杜元翰查易艺刘文盼

测试技术学报 2023年1期
关键词:特征提取全局行人

杜元翰, 汤 铭, 查易艺, 宋 浒, 刘文盼

(1.国网江苏省电力有限公司 信息通信分公司, 江苏 南京 210024;2.南瑞集团有限公司, 江苏 南京 211106)

0 引 言

行人重识别是指在多组摄像机下, 在监控视频具有跨越时间和空间维度特性的图像数据中对目标行人进行跟踪、 匹配以及身份鉴定的技术[1-2]。 行人重识别在刑事侦查、 打击犯罪、 安防安保、 公共交通等领域有广泛的应用。 例如, 利用行人识别可以统计公共场所的人流数据, 从而对交通系统进行优化, 获取顾客购物时的运动轨迹可以帮助商超经营者分析顾客的需求等[3]。 由此可见, 行人重识别算法具有重要现实应用的意义。

行人重识别起源于20世纪90年代, 科研人员尝试通过图像处理来解决行人特征的提取和分类问题。 早期的行人重识别研究是对特征提取以及度量学习两方面的研究。 特征提取是依据具有人体特征的稳定关键点特征来衡量行人图像的相似度, 如所在图片的位置、 颜色差值、 关键点结构等特点。 对此,Cheng等[4]提出使用身体外形结构模型自适应地匹配关键部位: 先通过特征提取出行人四肢等关键部位, 然后根据提取部位的颜色特征进行进一步识别匹配。Ma等[5]依据局部描述的思想, 利用Fisher向量和7维的局部描述子描述行人图像, 提出了费舍尔向量编码的局部描述算法 (Local Descriptors encoded by Fisher Vectors,eLDFV) ; 基于特征提取的思想, 通过将样本图像的全局特征和局部特征聚合训练, 提出了基于非对称性的直方图加缩影算法 (Asymmetrybased Histogram Plus Epitome,AHPE) 。

以上算法是无监督的,因此,算法有很强的自我学习能力, 也能适应现实场景中摄像头位置不同等差异。 然而, 行人特征会根据注意力的不同对衣着、 姿势、 光照等因素敏感, 进而影响识别效果。 度量学习就是为了给予特征不同注意力,通过给不同特征因素恰当的权重, 突出关键分量,弱化有不利影响的分量。 在此思想上,Gray[6]提出了局部特征集合算法(Ensemble of Localized Features,ELF), 对图片样本的空间信息以及局部特征组合成新的特征, 再加入到重识别训练中。

在基于深度学习的行人重识别研究中, 表征学习方法常被应用于行人重识别。 由于卷积神经网络可根据需求自动提取出表征特征的特点, 行人重识别被一些研究者当成分类任务或验证任务来处理。 分类任务是对已知的行人身份与训练标签不断匹配试错和更新来训练模型; 验证是指对已经训练好的模型输入测试的行人图像, 将模型判断的结果与图像的真实标签对比作为验证的结果。 分类子网络会预测输入的若干对行人样本图片的身份并计算误差损失, 经过大量样本训练后,网络能自动提取更具特点的行人特征。 另外, 对于训练的标签属性, 除基本的行人身份, 还可以对样本图像标注一些属性, 如性别、 姿态等属性特征。 随着更多标签的引入, 模型需要考虑的信息更多, 所要预测的属性更多, 其泛化能力也大大提升。

深度学习的度量学习方法是建立在获得样本图像间相似度的条件下的。Chen等[7]将样本图像分为3份, 对每份进行特征提取, 依据图像不同部分的功能, 综合计算特征的相似性度。 损失函数的优劣是深度度量学习的关键, 对比损失、 三元组损失、 四元组损失和边界挖掘损失等是度量学习比较常用的损失函数。旷视研究院的Wang等[8]提出了HOReID算法(High-Order Information Matters:Learning Relation and Topology for Occluded Person Re-Identification), 是利用拓扑结构解决行人遮蔽现象的行人重识别算法。

针对行人重识别方法在面对遮挡和复杂背景应用场景下的干扰信息影响精度的问题, 本文提出了一种改进算法, 对基于注意力机制的HOReID算法的全局特征提取网络进行改进, 将基于空间注意力的特征提取网络与HOReID中的Restnet50网络进行替换, 同时为了减少网络的复杂度对一些无关网络层进行删减。 最终经过Occluded-Duke以及Market-1501数据集的测试, 改进算法在遮蔽数据集中有更好的性能表现。

1 基于注意力机制改进的行人重识别算法

基于注意力机制的行人重识别算法的目的是通过关注重要的特征, 抑制不必要的特征来增加代表性。 在卷积神经网络中, 注意力学习通常采用局部卷积学习, 忽略了全局信息和隐藏关系。得益于RGA (Relation-aware Global Attention)网络[9]模型充分利用全局关联推断注意力的启发,本文在HOReID网络模型中对全局特征提取网络进行改进, 如图1所示。

图1 基于空间注意力机制网络示意图Fig.1 Network diagram based on spatial attention

2 基于注意力机制改进的全局特征提取算法

文献[8]提出的算法第一阶段中的全局特征提取采用普通的ResNet50残差网络, 对于输入图像只是静态的特征提取。 本文尝试通过空间注意力机制从全局特征中自动地发现每个像素点之间的关系, 从而得到图片位置空间上的关系, 最终再与全局特征进行拼接及卷积得到含有空间注意信息的全局特征。Zhang等[9]研究证明, 基于注意力机制可获得表示能力更高的全局特征。

具体实现如图2所示, 输入一个来自CNN层的宽W, 高H,C通道的中间特征图, 通过将中间特征图的每个点平铺成一行, 则每个点之间的关系可以用W×H的方阵来表示。 表示从节点i到节点j的关系度rij可 以定义为

式中:θc和φc是 由1×1卷积层实现的2个嵌入函数θs(xi)=ReLU(wθxi) 和φs(xi)=ReLU(wφxi)。 最后, 将通过1×1卷积得到的全局特征与关系矩阵相拼接, 再通过全连接层得到基于空间注意力机制的全局特征。

Zhang等[9]研究发现, 像素点之间的双星关系对模型预测结果的影响不是很大, 因此, 为减轻复杂度, 本文对RAG网络结构进行修改, 将局部信息之间的关系视为双向的, 只计算了1个关系特征矩阵, 简化了计算量。 如图2所示, 透明矩形框中是主要的改进模块, 本文通过空间注意力机制从全局特征中自动地发现每个像素点之间的关系, 从而得到图片位置空间上的关系, 最终再与全局特征进行拼接以及卷积操作得到含有空间注意信息的全局特征, 在此基础上参与之后的局部特征匹配, 进而提升文献[8]提出的模型性能。

图2 改进后的网络模型Fig.2 Improved network model

3 实验结果与分析

为了分析基于注意力机制改进的特征提取对行人重识别模型性能的影响, 本节将介绍实验所使用的软件及硬件条件, 然后介绍实验中使用的被遮挡的行人重识别数据集, 最后通过对比实验数据与原文献数据, 分析实验结果。

3.1 实验设置

本文实验中使用的平台为Ubuntu 18.04操作系统,Python版本3.7, 使用Py Torch 深度学习框架完成, 硬件采用Tesla T4显卡,16 G显存。

3.2 实验数据集

本实验使用Occluded-Duke数据集[10]以及Market-1501数据集[11]进行模型的训练和测试。Occluded-Duke数据集是目前最大的遮挡数据集,其中训练集为702人, 共15 618张图像;query为519 人,2 210 张 图 像;gallery 为1 110人,17 661张图像。 这是目前最为复杂的遮挡ReID数据集, 其中存在视角和多张障碍物, 如汽车、 自行车、 树木和其他人。 本实验为与原实验进行对比, 对数据进行了相同的预处理。

Market-1501数据集由清华大学在2015年构建并公开, 它由6个摄像头(包括5个高清摄像头和1个低清摄像头)拍摄到1 501个行人, 检测到32 668个行人矩形框。 每个行人至少被2个摄像头捕捉到, 同一行人在同一摄像头中可能有多张图像。 训练集包含751人, 共12 936张图像; 测试集包含750人, 共19 732张图像; 查询集中包含3 368张人工绘制的行人检测矩形框。

3.3 方法性能评估

在行人重识别任务中, 经常使用均值平均精度(m AP)和第k匹配率(rank-k)这2个重要指标来评估行人重识别算法, 同时, 评定一个算法、 模型改进好坏的普遍做法是看它在关键基准数据集上的性能能否得到提高。 目前主要采用的方法是通过算法、 模型在基准数据集上测试的结果来验证模型的优劣性。 本实验通过改进网络结构, 尽量使用与原文献相同的实验环境, 在相关数据集上进行测试。 改进算法的最终目标是希望能训练得到一个更鲁棒算法模型。 由于硬件条件的限制,本实验在Occluded-Duke数据集上检验基于注意力机制改进HOReID的特征提取对模型性能的影响, 以及在Market-1501数据集上检验改进后算法在基本行人数据集上的效果。

平均精度均值m AP是评估检索系统中一种常用的性能度量标准。 这个指标可以通过行人重识别数据集中的每个行人多张图像来很好地评估模型性能。 行人重识别任务中的标签不止1个, 不能用普通mean Precision单标签图像的分类标准。m AP将多分类任务中的平均精度(Average Precision,AP)求和再取平均。 精确度P表示匹配相关的样本数量占总样本数的比例, 用Pt(q)表示查询样本q匹配的第t个相关样本的精确度, 即

式中:At(q)表示当查询样本q匹配的第t个相关样本的图像总数。AP表示q样本与相应样本的精确度的平均值, 即

式中:N(q)表示q的相关样本总数。mAP即q的所有平均精度的均值, 即

式中:Q为所有q的集合,mAP∈[0,1]。

3.4 在Occluded-Duke数据集上的实验结果

由表1可以发现, 通过改进基于注意力机制的全局特征提取网络, 能够有效提升文献[8]模型对于行人遮蔽数据集的识别准确度。 文献[8]提出的网络模型有效解决了遮蔽图像的局部特征匹配问题, 但是考虑到网络复杂度的原因, 全局特征采用Rest Net50网络提取。 而基于注意力机制的全局特征提取能提取出更高纬度的语义特征, 这对网络后阶段的局部特征匹配有很大的帮助。 实验数据也验证了其有效性。

表1 Occluded-Duke数据集上的实验结果Tab.1 Experimental results on the Occluded-Duke dataset

3.5 与其他行人重识别算法的对比

为验证改进后的模型对基本的行人数据集是否依然有效, 使用Market-1501数据集进行训练并测试, 结果如表3所示, 实验结果能达到基本的水平。

表3 在Market1501集的测试结果Tab.3 Experimental results on the Market1501 dataset

对比单纯的Rest Net50以及RAG在Market-1501数据集上的测试结果可以发现(如图表2所示),HOReID的局部特征匹配对一些环境上的细节起到屏蔽的效果, 但是屏蔽的同时也会丢失一定的背景信息。 因此, 在Market-1501数据集中的指标有所下降也在可以接受的范围之内。

表2 RGA在Market1501集和Occluded-Duke的测试结果Tab.2 Experimental results in Market1501 set and Occluded-Duke

4 结 论

本文通过对RAG网络模型的分析, 尝试将基于空间注意力机制的特征提取网络与HOReID中的RestNet50网络进行替换, 同时为了减少网络的复杂度, 对一些无关网络层进行删减。 最终经过Occluded-Duke以及Market-1501数据集的测试表明, 改进算法在遮蔽数据集中有更好的实验效果。

猜你喜欢

特征提取全局行人
Cahn-Hilliard-Brinkman系统的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
毒舌出没,行人避让
路不为寻找者而设
基于Daubechies(dbN)的飞行器音频特征提取
落子山东,意在全局
我是行人
Bagging RCSP脑电特征提取算法
曝光闯红灯行人值得借鉴
基于MED和循环域解调的多故障特征提取