APP下载

基于局部特征注意力的行人重识别方法∗

2023-10-20闫昊雷李小春秦先祥付弋颉

计算机与数字工程 2023年7期
关键词:行人注意力卷积

闫昊雷 李小春 秦先祥 付弋颉

(1.空军工程大学信息与导航学院 西安 710077)(2.燕山大学 秦皇岛 066000)

1 引言

行人重识别是在跨视频传感器的条件下,从图像库中检索出特定的行人目标。随着“智慧城市”的建设和发展,以视频传感器为前端信息获取,基于人工智能技术的行人重识别方法可广泛应用于无人超市、儿童丢失和抓捕逃犯等现实领域中,对维护社会安全和提升人民生活幸福感具有重要应用价值。由于传统手工特征提取方法加入先验知识,如HOG 算法[1]、Fish 算法[2]和LOMO 算法[3],虽然可从原始图像的颜色、纹理和形状等易于被人区别的特征进行判别,但是模型不能按照原始图像自身特点自发寻找最具有代表性的特征。随着深度学习的发展,以卷积神经网络为代表的特征提取方法使模型自动获取图像特征,在实际运用中效果较好,从而受到研究人员的广泛关注和青睐。由于现实场景中,不同视频传感器因自身像素不同,获取的行人图像又受光照、遮挡等外部环境影响,行人重识别研究仍具有研究价值和应用前景。行人图像特征由全局特征和局部特征构成,其分别从整体上和局部上描述图像最具有价值信息。由于局部特征的匹配和使用对行人重识别算法准确性提升明显,研究人员重点对局部特征的使用和获取进行研究。如Sun 等[4]提出PCB 算法,其将行人特征图分为6 个部分,分别进行计算损失。Luo 等[5]对特征图分块后,考虑行人图像的局部特征对齐问题,引入距离度量使检索对象和目标在局部上对齐,提升了检测精度。涂等[6]对深层网络得到的局部特征进行融合,但忽略了浅层网络提取的图像细粒度信息。Park 等[7]将单个局部特征和其他局部特征相连接,在多个环节计算损失。当前基于局部特征的研究方法局限于使用局部特征向量直接进行计算,未充分考虑使用注意力机制去引导各局部特征去寻找存在的上下文相互关系,无法进一步找出最能有效表示该局部特征的向量。

本文提出一种基于通道注意力机制引导的局部特征融合方法,该方法通过获取局部特征各通道间关系,继而寻找局部特征之间相互联系,获取一种更能有效表示该局部特征的特征向量。该算法采用难采样三元组损失函数[8]和交叉熵损失函数共同对模型进行训练,使样本在高维空间中聚类。将该算法在行人重识别公开数据集Market1501[9]上进行训练和验证,并和其他基于局部特征的算法进行对比,实验结果表明,该方法在该数据集上具有一定的优越性。

2 相关工作

2.1 卷积神经网络

卷积神经网络主要由卷积层、池化层和全连接层组成。卷积层用于通过卷积核来获取输入图像的特征表示。池化层用于对从卷积层提取出的特征进行压缩,以获取更大的感受野和更为全局性的信息。全连接层用于输出类别。Li 等[10]首先提出基于卷积神经网络的FPNN 网络模型,将其应用于行人重识别任务中,在公开数据集上取得良好效果。

2.2 通道注意力模块

注意力模块可以使网络在处理信息中关注更为重要的关键特征,同时抑制冗余特征表达。主要有包含空间注意力、通道注意力和自注意力[11]。通道注意力模块通过赋予不同的通道相应的权重,以表示该通道对于模型的贡献大小。Hu等[12]构建了经典的SE 通道注意力模块,其将特征图在空间维度进行压缩,以表示通道的重要程度,该方法在目标检测取得优异的效果。

3 局部特征融合网络

本文算法结构如图1 所示,首先将输入图像通过ResNet50[13]网络,提取全局特征,将所得特征沿水平方向等份分割为6 个部分,然后进行全局平均池化,获取稳定的空间信息,将所获各局部特征依次通过注意力引导的局部特征融合模块,最后使用交叉熵损失和难采样三元组损失共同对模型进行训练。

图1 主要网络架构

3.1 主干网络

ResNet50因其特有的残差结构,使得神经网络可以向更深处延展,能提取到丰富的深层语义信息,避免传统深层神经网络的梯度消失问题。本文与经典ResNet50 网络架构上有所不同,主要是去除了最后一层的下采样操作,使网络在深层次提取特征时能获取较大尺度的特征。同时在主干网络后使用水平分块和全局平均池化操作,将模型在空间维度压缩至一维,在获取有效的空间信息的同时,便于在通道维度进行变换。假设该模块的输入特征图为D∊RC′×H×W,其中C′、H、W 分别为特征图D的通道数、高度和宽度。将其沿水平方向等份分割为6 份,则有,其中i=1…6。然后在空间维度作全局平均池化操作,得Pi∊RC′×1×1,其中i=1…6。

3.2 通道注意力引导的局部特征融合模块

为获取局部特征间相互关系以便更好地表达局部特征,本文设计一种基于通道注意力引导的局部特征融合模块,可实现即插即用的功能。该模块具体结构如图2 所示,对局部特征P1∊RC′×1×1来说,与剩余局部特征关系的计算步骤描述如下:首先对剩余局部特征向量求其平均值E∊RC′×1×1,计算方法为

图2 注意力引导的局部特征融合模块

其中i=2…6,Pi∊RC′×1×1。

然后将P1通过卷积层Wy得到特征图Y∊RC×1×1,具体操作为

为进一步压缩维度,将Y经过变换操作得F∊RC×1。将E 经过通过卷积层WG后,经过变换和交换次序操作得到G∊R1×C。具体操作为

为获取局部特征和剩余特征通道间相互关系,将F和G相乘得到相互关系图H∊RC×C。具体操作为

为获取局部特征和剩余特征的双向表示关系,将H∊RC×C交换次序得到I∊RC×C,并将H和I拼接在一起得到J∊R2C×C。后在通道维度进行降维,通过卷积层Wk得到K∊RC͂×C,具体操作为

借鉴残差网络的思想,在保证其进行卷积操作时仍有不低于原始特征的表达效果,将Y∊RC×1×1交换次序并压缩维度可得L∊R1×C,将L和K在通道维度连接到一起得到M∊R(C͂+1)×C,然后通过卷积层WN和交换次序操作得到N∊RC×1×1,具体操作为

将原始特征Y∊RC×1×1与得到的关系向量N∊RC×1×1相加得到O∊RC×1×1,然后通过sigmoid函数,得到P1经通道注意力建模所获取的最终注意力权重Q∊RC×1×1。该注意力模块主要在通道维度建模,寻找局部特征通道和剩余特征通道的相互关系,提升特征表达能力。将注意力权重Q与局部特征P1相乘,即为局部特征P1对应的局部关系特征V1∊RC×1×1。同理,其余局部特征P2至P5相互关系可按照该流程依次获取。

3.3 损失函数

选取交叉熵函数和三元组损失函数共同对模型进行训练。交叉熵函数用于度量概率分布间的差异性,公式为

式中N 为每个批次中的图像数量,yn为其对应的真实标签,为通过输入特征图后模型的预测标签,公式如下:

其中X 为识别标签的数量,为特征qi和X 的全连接网络分类器。

难采样三元组损失函数公式为

其中NX是每个批次中的标签数,NM是批次中每个标识标签的图像数量。α是一个边距参数,用于控制特征空间中正负样本对之间的距离。用qiA,j表示目标行人样本,qiP,j表示正样本,qiN,j表示负样本,其中i、j对应于标识和图像索引。

多分支网络在训练过程中存在干扰现象,本文在损失函数引入权重匹配。由于交叉熵损失函数使用率多于难采样三元组损失函数,故在调整权重时,为降低复杂度,将Ltri权重设置为1,将Lce设置为λ。

因此,本文算法中损失函数定义如下:

其中Ltri代表三元组损失函数,Lce表示交叉熵损失函数,λ为超参数。

4 实验方案及结果

本算法采用Pytorch 深度学习框架,以英伟达3090显卡为实验设备进行模型的训练和验证。

4.1 数据集和评价指标

在行人重识别公开数据集Market1501 上测试本文算法的有效性,并将其性能与其他经典方法进行比较。Market1501 数据集包含由6 个摄像头捕获的1501 个身份的32668 个人物图,其中包含751个用于训练的身份的12936张图像和750个用于测试的身份的19732 张图库图像。本次实验采用mAP 和Rank-1 评价指标,mAP 为平均检测精度,Rank-1 为返回的图像集中首个图像即为所查询图像的概率。

4.2 实验方案及参数设置

本文实验将所有数据集图像尺寸调整为384×128,并采用水平镜像和随机擦除操作,增强模型的泛化能力和鲁棒性。采用动量为0.9,衰减为0.0005的SGD优化器。批次大小设置为64,每次从16 个行人中各随机挑选出4 张图片,共训练100轮。初始步长设置为0.03,每40 轮步长衰减为原先的0.1。

为验证局部特征分块数量对网络模型预测精准度的影响,在本文算法中依次将全局特征分为2、4、6、8、12 块局部特征进行训练,对模型进行训练并计算所分块数对应的mAP 和Rank-1 值,以获取模型对分块数量的敏感情况,寻找一个最佳分块数量。

4.3 实验结果

根据实验方案,将全局特征按照水平分块分别分为2、4、6、8、12 块进行分别提取特征,实验结果如图3,Rank-1 值分别为92.2%,93.7%,93.9%,94.7%,94.6%;mAP 值分别为82.4%,85.5%,86.1%,86.4%,85.5%。因此,全局特征在水平等份分割为8 块局部特征进行融合时实验效果最好,mAP值和Rank-1分别达到86.4%和94.7%。

图3 不同分块的实验结果

为进一步检验模型效果,将其他使用局部特征识别完成行人重识别的经典算法与本文算法进行对比,结果如表1所示。从表1看出,与其他单纯使用局部特征进行计算的方法相比,基于通道注意力引导的局部特征融合方法在Market1501 数据集上将mAP 值提升至86.4%,将Rank-1 值提升至94.7%,优于其他算法,说明本文算法在行人重识别任务领域具有较强的适应性。

表1 与其他算法结果对比

5 结语

本文提出一种基于通道注意力引导的局部特征融合方法,并将其应用于行人重识别任务中,在公开数据集Market1501 上取得较好效果。但由于行人图像受光照、像素和姿态变换等影响,相关方法若要应用于实际场景还应作进一步研究。

猜你喜欢

行人注意力卷积
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
毒舌出没,行人避让
从滤波器理解卷积
路不为寻找者而设
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
我是行人
A Beautiful Way Of Looking At Things
一种基于卷积神经网络的性别识别方法