APP下载

基于属性依存增强的文搜图行人重识别

2024-07-01夏威袁鑫攀

科技资讯 2024年8期

夏威 袁鑫攀

摘要:文搜图行人重识别旨在通过给定的文本从行人图库中检索目标人物,主要挑战是学习自由视角(姿势、照明和相机视点)的图像和自由形式的文本的鲁棒特征。然而,由于在文本描述和行人图像中存在对行人属性挖掘的不足,在细粒度上因为细节的差异从而影响了文本描述到行人图像的检索性能。因此,研究提出了基于属性依存增强的文搜图行人重识别。首先,从文本描述解析出依存关系,并转化为依存矩阵。其次,设计了一个基于自注意力的属性干预模块用来融合文本特征和依存矩阵,得到属性增强的文本特征,此时文本特征经过干预,更为关注属性信息。最后,文本特征与图像特征参与训练,让整个网络对属性的挖掘更为敏感。在两个数据集CUHK-PEDES和ICFG-PEDES上进行实验,证明了提出的模型的有效性。

关键词:文搜图行人重识别 自注意力机制 句法依存 自由视角

中图分类号:TP391

Text-to-Image Person Reidentification Based on Attribute Dependency Augmentation

XIA Wei  YUAN Xinpan

Hunan University of Technology, Zhuzhou, Hunan Province, 412000 China

Abstract: Text-to-Image Person Reidentification (TIPR) aims to retrieve a target person from a pedestrian gallery with a given text, and its main challenge is to learn the robust features of free-view (posture, lighting and camera viewpoint) images and free-form texts. However, due to the lack of pedestrian attribute mining in text descriptions and pedestrian images, the retrieval performance from text descriptions to pedestrian images is affected by differences in details in fine granularity. Therefore, this study proposes TIPR based on Attribute Dependency Augmentation (ADA). Firstly, it analyzes dependencies from text descriptions and transforms them into dependency matrixes. Then, it designs an attribute intervention module based on self-attention to fuse text features and dependency matrixes and obtains attribute-augmented text features which are more concerned about attribute information after intervention. Finally, it allows text features and image features participate in training, making the whole network more sensitive to attribute mining. Experiments on two datasets CUHK-PEDES and ICFG-PEDES demonstrate the effectiveness of the proposed model.

Key Words: Text-to-Image Person Reidentification; Self-attention mechanism; Syntactic dependency; Free view

文搜图行人重识别(Text-to-Image Person Reidentification,TIPR)旨在通过给定的文本从行人图库中检索目标人物,其主要挑战是学习对自由视角(姿势、照明和相机视点)的图像和对自由形式的文本具有鲁棒性的特征,相比于图搜图行人重识别,TIPR更具有挑战性。现在主流的方法[1-4]之一是利用属性作为一种手段来表示数据的语义,属性作为TIPR的软生物特征,是人类可理解的语义概念,例如性别、年龄、服装描述。因为模态不变的特性,属性可以作为文本模态和视觉模态之间数据语义的良好媒介。

尽管现有利用属性的方法都取得了不错的性能,但基本上是通用的跨模态检索方法的变种,有时对于具有丰富语义的TIPR任务来说并不是最优的解决方案。针对上述存在的技术问题,提出了基于属性依存增强(Attribute Dependency Augmentation,ADA)的TIPR方法,使用依存关系的先验知识挖掘属性信息来增强语义特征,以额外的行人属性特征作为关键信息优化检索性能。

1 方法

1.1 数据预处理

1.1.1图像特征提取

对行人图像进行数据增强,并将其转化为张量并归一化后再进行标准化,得到关于的多样化样本,然后将馈送到ResNet中,得到图像特征。

1.1.2文本特征提取

通过自然语言处理工具SpaCy将进行分词,得到分词结果,表示词的数量。通过Word2Vec将中的每个词映射到对应的词向量,得到。然后将馈送到文本提取器BiLSTM中,处理从到以及到的词向量,对于词向量有:

其中,,分别表示第个词向量的前向和后向隐藏状态。于是得到关于的特征,则对于有文本特征。

1.1.3文本特征提取

通过SpaCy对进行依存分析得到,对于中的每个词根据 计算其父词到每个词的依存距离,有数组;对于根节点即无父节点上的词,计算到本身的依存距离,进一步计算得到从转化的矩阵。映射到以为中心,方差为的高斯分布上,得到依存矩阵。如下所示:

1.2 属性干预

受工作[5]启发,引入自注意力网络将和融合,并设置个注意力头,关于第个注意力头如图2所示。对于每个词特征,经过3个可学习的权重矩阵分别得到3个向量,具体如下。

进一步对于得到。

为避免中索引的使用冲突,对应为,计算对应的点积并除以缩放因子,得到一个表示对的注意力程度的注意力分数。

进而得出注意力权重矩阵,将和做哈达玛积并通过Softmax函数映射,有:

然后将和进行矩阵乘法,得到关于的注意力输出。如下所示:

将个注意力头输出的拼接,最终得到文本特征。

在这一维度上,对和做最大池化处理,得到分别得到文本嵌入和图像嵌入。都经过一个的共享权重矩阵做矩阵乘法,用以缩小文本模态和视觉模态之间的语义鸿沟,得到最终的文本嵌入和图像嵌入。公式如下所示:

1.3 损失计算

进行分类损失的计算时,给定行人标签,做独热编码处理,得到

文本嵌入和图像嵌入馈送到作为预测头的一层全连接,并预测行人概率,对应预测的行人概率为,对应预测的行人概率为,和的表达式分别为:

都为对每个行人预测的一组概率值,表示训练集中行人唯一标签的总数。最终,分类损失的计算公式为:

排名损失基于三元损失进行计算,公式为:

为正样本对,为随机选取的负样本,为余弦相似度计算。总损失计算表示为。

2 实验结果与分析

2.1 实验准备

2.1.1数据集

为了验证我们方法的有效性和准确性,在公开的主流数据集CUHK-PEDES和ICFG-PEDES上进行实验。

2.1.2实验参数

批量大小为64,训练次数为60,初始学习率为0.001,并使用Adam优化器。

2.1.3评价指标

在测试集上,我们使用Rank-1、Rank-5、Rank-10作为评价指标,分别表示查询结果中前一、前五、前十张图像与文本描述属于同一个行人的概率。

2.2 对比实验

我们方法与近年来的一系列先进的TIPR方法在两个主流的数据集上进行比较,具体实验结果如表1所示。从表中可以观察到以前的方法都取得了不错的精度,但这些方法仍存在着缺少对文本描述的深层结构细节的关注。我们方法将依存关系作为一种在文本模态的数据增强手段,显式地干预对属性的关注从而提取关键线索。在CUHK-PEDES和ICFG-PEDES的Rank-1上本方法有着更高的精度,且Rank-5和Rank-10也有着不错的竞争性。

2.3 属性依存的合理性

从词性和依存距离的关系上解释属性依存增强的有效性。如图3所示,横坐标表示某一词性的数量,纵坐标表示依存深度。图中可以明显观察到修饰属性(ADJ)和名词属性(NOUN)在有着最多单词数量的同时,还有着较高的依存深度。这就意味着,利用属性依存增强策略干预模型关注到文本更深层次的依存结构时,往往关注到修饰属性和名词属性,这对于利用行人属性表示数据语义的文搜图行人重识别来说,是有利于提取语义特征的。

3 结论

在本文中,提出了一种基于属性依存增强的文搜图行人重识别方法,为该领域提供了一种利用依存关系干预模型对行人属性关注的思路。在实验中,与其他方法相比,本文提出的模型在Rank1、Rank5和Rank10的评价指标上均有竞争性。另外,还从依存深度的角度上,解释了属性依存增强的合理性。在未来的研究工作中,将继续探索该方法在通用的跨模态领域的有效性。

参考文献

[1] ZHANG J F,NIU L,ZHANG L Q. Person re-identification with reinforced attribute attention selection[J]. IEEE Transactions on Image Processing,2020,30: 603-616.

[2] 王继民.融合行人属性信息的行人重识别研究[J].集成电路应用,2023,40(12):420-424.

[3] 陈琳. 跨模态行人重识别研究[D].济南:山东大学,2023.

[4] 王玉煜. 基于语言信息的行人重识别算法研究[D].大连:大连理工大学,2021.

[5] BUGLIARELLO  E, OKAZAKI N. Enhancing machine translation with dependency-aware self-attention[C]//Annual Meeting of the Association for Computational Linguistics,2019: 1618–1627.