基于CNN-ATT-ConvLSTM的行人属性识别

2021-04-15许华虎卞敏捷

计算机应用与软件 2021年4期

李洋许华虎卞敏捷

1(上海大学计算机工程与科学学院上海 200444) 2(上海建桥学院信息技术学院上海 201306)

0 引言

行人属性，如性别、头发和衣服等，是重要的视觉线索，也是对人的外表的语义描述。行人属性作为视频监控中的软生物学特征，可应用于行人检测、行人跟踪、行人再识别、行人搜索、行为识别[1]。属性作为高级语义特征，与低级视觉特征相比，具有许多优点，如对图像条件变化的鲁棒性。因此，许多计算机视觉任务将属性信息集成到其算法中，以获得更好的性能。然而，从现实世界的监控图像中自动识别行人属性非常具有挑战性，其原因在于：(1) 由于光线、分辨率低、遮挡和模糊等原因，图像质量不够好；(2) 即使对于同一行人属性，由于不同的视角和人体的非刚性，在不同的图像中可能会发生明显的外观和位置变化；(3) 由于隐私保护等原因，较难对监控图像中的行人属性数据进行采集和标注，导致可用的数据集比较小，数据分布也不平衡。这些因素使得行人属性识别成为一项具有挑战性的计算机视觉任务。

为应对这些挑战，一个有效的方法是发掘行人属性之间的相互依赖性和相关性，例如，“女性”和“裙子”这两个属性可能同时出现在一个人的图像中，这种相关性为行人属性识别提供了较好的补充推理约束。然而，现有的方法对行人属性进行分别预测，忽略了属性之间的互相关性和空间关系等可以提高行人属性识别性能的重要信息，导致行人属性识别的准确率不够理想。

针对上述存在的问题，本文将行人属性识别作为一项时空序列多标签图像分类任务，提出一种新的CNN-ATT-ConvLSTM模型。该模型由用于属性特征提取的卷积神经网络(CNN)、重新调整相关特征响应的基于通道的注意力机制(Channel-wise Attention Mechanism)和挖掘不同属性之间相关性和空间信息的卷积长短期记忆网络(ConvLSTM)组成。本文主要贡献如下：(1) 为了更好地挖掘属性之间的空间和语义互相关性，采用在输入到状态和状态到状态转换中使用了卷积运算的ConvLSTM。通过叠加多个ConvLSTM，建立一个端到端可训练模型，从预测行人属性序列中提取时空相关信息。(2) 利用通道注意力机制提取预测行人属性的最相关、最显著的视觉特征，据我们所知，这是首次将通道注意力机制用于行人属性识别。(3) 进行了深入的实验来分析验证本文方法，并在两个常用的行人属性基准数据集PETA[2]和RAP[3]上与其他7个先进的模型进行了广泛深入的对比。结果表明，本文提出的CNN-ATT-ConvLSTM模型获得了更好的性能。

1 相关工作

1.1 基于手工特征的行人属性识别

早期的行人属性识别方法通常利用手工提取的特征(如纹理和颜色直方图)开发具有鲁棒性的特征表示[4-5]。属性间相关性被认为是提高预测性能的额外信息，例如基于图模型的方法，通过使用条件随机场或马尔可夫随机场来捕获属性的共现可能性[6-7]。然而，这些算法在处理大规模属性时计算成本很高，而且基于手工特征的识别能力差。对大规模数据的评估报告表明，这些传统算法的性能远远不能满足实际应用的要求。

1.2 基于深度学习的行人属性识别

近年来，深度学习在多层非线性变换的自动特征提取方面取得了巨大成功，也被广泛用于行人属性识别中。文献[8]提出了一个基于CNN的DeepMAR模型，并开发了一个加权的Sigmoid交叉熵损失来处理属性不平衡问题。文献[9]利用多标签CNN并将行人图像分成15个重叠的身体部分，这些部分被独立过滤并聚集在代价函数中。为了利用属性之间的关系，文献[10]提出了一个属性卷积网(ACN)来联合训练所有属性的模型。为了进一步探讨属性之间的关系，文献[11]首次利用CNN-RNN结构进行行人属性识别，RNN的使用不仅可以学习图像与属性之间的复杂映射关系，而且可以利用属性之间的依赖关系，显著提高性能。文献[12]探讨了行人属性识别中的注意模型，提出了多方向注意力模块，训练多层次、多尺度的注意力以增强特征。文献[13]也探讨了属性之间的关系，并提出了联合循环学习(JRL)模型。JRL在一个统一的框架中学习人与人之间的图像上下文和人与人之间的属性关联。文献[14]是第一个探索利用行人身体结构知识(即行人姿态)进行行人属性识别的，他们首先使用预先训练的姿态估计模型来估计给定人体图像的关键点。然后，根据这些关键点提取局部区域和整个图像的深层特征，用于行人属性识别。文献[15]提出一种联合注意力模型(JCM)进行行人属性识别，可以一次预测任意长度的多个属性值，避免了属性在映射表中不同排列的影响。文献[16]提出了两种模型，即用于行人属性识别的重复卷积(RC)和重复注意力(RA)。采用RC模型，利用卷积LSTM模型挖掘不同属性组之间的相关性，RA模型利用组内空间位置和组间注意力相关性来提高最终性能。

2 方法设计

2.1 模型结构

本文将行人属性识别作为一个时空序列的多标签分类问题，设计一个CNN-ATT-ConvLSTM模型。图1展示了该模型的结构。它主要由三个部分组成，即多标签分类的CNN、基于通道的注意力机制和ConvLSTM。CNN用于提取给定行人图像的视觉特征。通道注意力机制自适应地计算通道注意力权重并重新调整视觉特征响应，以提取预测属性的最相关和最显著的视觉特征。ConvLSTM进一步利用视觉特征和隐藏状态在优化的预测序列中逐个预测行人属性标签，通过在内部存储状态保持上下文信息，挖掘属性之间的相关性。

图1 CNN-ATT-ConvLSTM模型结构

2.2 模型中的卷积长短期记忆网络

行人属性具有很强的相关性，例如，在一个人的图像中，女人和长头发通常同时出现，而男人和裙子几乎从不同时出现。为便于发掘属性间的相关性，本文把行人属性识别作为序列任务，对行人属性进行逐个识别并在序列预测的过程中逐步充分挖掘属性间的相关性。循环神经网络(RNN)作为一种专门为处理序列数据样本而设计的网络，其每一层不仅输出到下一层，还输出一个隐藏状态，供当前层在处理下一个样本时使用。RNN擅长挖掘样本之间的相关性。

长短期记忆网络(LSTM)[17]是RNN的一个进化版本，它解决了RNN中梯度爆炸和梯度消失的问题。本文利用LSTM挖掘属性之间的相关性，对属性进行逐一预测，在预测后续属性时，LSTM可以参考包含历史信息的隐藏状态。虽然LSTM在序列建模任务中表现出了强大的能力，但普通的LSTM在处理图像时忽略了图像的空间信息。这是由于普通LSTM通过全连接层对序列信息进行建模，并将输入图像展平为一维矢量，这就导致图像空间信息的丢失，不利于行人属性识别性能的提高。为了保持行人属性的空间结构，本文在网络模型中使用卷积LSTM(ConvLSTM)[18]代替标准的LSTM。在ConvLSTM中，卷积运算用于输入到状态和状态到状态的转换，它比标准LSTM能够更好地捕获属性的空间信息，从而使得在模型中使用ConvLSTM可以更好地挖掘行人属性的相关性，其公式如下：

(1)

式中：下标t表示ConvLSTM的第t步;xt表示输入数据;ht表示隐藏状态;ct表示存储单元的状态;it、ft和ot分别是ConvLSTM的输入门、遗忘门和输出门;W和b是需要学习的权重和偏差;*、∘、σ和tanh分别表示卷积运算、元素乘法、Sigmoid函数和tanh函数。这里的xt、ct、ht、it、ft、ot都是三维张量，并且在状态到状态转换和输入到状态转换时采用卷积运算，从而得以保留行人属性特征的空间信息。此外，卷积运算实际上具有隐式空间注意力的效果，因为与目标行人属性相对应的区域通常具有较高的激活响应。在实验中，我们发现ConvLSTM能关注行人属性标签预测的关键区域，比普通的LSTM获得更好的结果。ConvLSTM的内部结构如图2所示。

图2 ConvLSTM内部结构

2.3 模型中的通道注意力机制

对于行人属性识别，不同的图像区域对不同的属性预测具有不同的重要性，比如在预测头发相关属性时，上部分图像区域更重要，而对于鞋子相关属性的预测时，图像下部分区域更重要。有必要对属性特征进行更深入识别，并保留相关的空间信息以提高属性识别的准确率。2.2节中描述的ConvLSTM具有隐式空间注意力的效果,能关注行人属性相关的关键区域，能有效提供属性识别的准确率。不同的行人属性除了在图像中的区域不同外，在视觉特征上也有很大不同，比如头发和鞋子的特征就有很大的差异。CNN的卷积核具有特征(模式)检测的滤波作用，每个通道的特征其实就是表示该图像在不同卷积核(滤波器)上的分量。通道注意力的作用是通过对特征图各通道的依赖性进行建模以提高网络的特征表达能力，可以看作是语义属性的选择过程。通道注意力首先通过通道维度上的全局池化获取各通道的全局信息，然后自适应地建模通道之间的相关性，并根据相关性对各通道进行加权处理，实现特征响应、重新校准的目的。这样网络就可以有选择性地加强包含有用信息的特征并抑制无用或作用不大的特征。本文设计采用了基于通道的注意力机制，利用更多可识别的相关特征来执行行人属性识别任务，把ConvLSTM的空间注意力和通道(特征)注意力相结合，以进一步提高属性识别性能。在本文提出的CNN-ATT-ConvLSTM模型中，ConvLSTM每步都将预测一个行人属性标签，在模型中加入基于通道的注意力，在预测不同属性标签时自适应地调整不同特征响应的权重。图3显示了该注意力机制的结构。

图3 模型中的基于通道的注意力机制

为了计算每个特征响应通道的注意力权重，本文采用全局平均池化生成每个通道对应的视觉特征的统计信息，作为基于通道的全局空间信息的描述。另外，为了根据先前预测的属性标签自适应地获得通道注意力权重，本文也把ConvLSTM的隐藏状态考虑到基于通道的统计信息中。这两种统计信息的计算公式如下：

(2)

(3)

式中：xk和ht-1,k分别表示第k个通道(k=1，2，…，C)处的视觉特征和ConvLSTM先前的隐藏状态;fa表示全局平均池化函数;ak和dk表示第k个通道的视觉特征和隐藏状态的统计信息;W和H代表视觉特征的宽度和高度。在本文中，视觉特征和隐藏状态具有相同的维度。

在获得视觉特征和隐藏状态的统计信息后，通过下式计算通道注意力权重：

zk=σ(w2δ(w1[ak,dk]+b1)+b2)

(4)

式中：w1、w2和b1、b2是要学习的权重和偏差;δ表示用于非线性映射的ReLU函数;[-,-]是连接操作;σ表示将注意力权重标准化为(0,1)之间的Sigmoid函数。最后，通过对各通道原始特征和注意力权重进行加权计算，得到重新调整后的特征：

(5)

2.4 模型中的损失函数

本文以一种优化的顺序对行人属性标签逐一进行预测。在计算每一步预测的损失时，首先把ConvLSTM的三维隐藏状态展平为一维矢量，然后用于行人属性标签的预测。

pt=σ(wpht+bp)

(6)

式中：pt∈[0,1]是第t个属性标签的预测输出概率;σ是Sigmoid函数;ht是展平的隐藏状态;wp和bp是学习到的权重和偏差。

每一步预测的损失计算如下：

(7)

(8)

式中：T表示所有的行人属性类的数量。

3 实验与分析

3.1 数据集

为了进行有效评估，本文使用两个最大的公共行人属性数据集：PETA数据集[2]和RAP数据集[3]。这两个数据集中有大量低分辨率、遮挡和杂乱背景的行人图像，对行人属性识别有很大挑战。

PETA数据集：包括从10个小规模行人属性数据集汇集的19 000幅行人图像。每个行人有65个属性(61个二值属性和4个多值属性)。本文将整个数据集随机分为三个不重叠的分区：9 500幅图像用于训练，1 900幅图像用于验证，7 600幅图像用于测试评估。

RAP数据集：共有41 585幅来自26个室内监控摄像机的图像。每个行人有72个属性(69个二值属性和3个多值属性)。本文采用其中任意33 268幅图像进行训练，其余8 317幅图像进行测试。

为了公平比较，本文采用和文献[3]相同的51个二值属性进行评估，并且将两个数据集的多值属性都转换为二值属性。

3.2 评价方法和指标

本文采用两种方法和四种指标来评估行人属性识别的性能。

基于类的评估：对于每个属性类，分别计算其正样本和负样本的分类准确度，取其平均值以获得该属性类的平均准确度，然后再对所有属性类的平均准确度计算平均值(mAP)作为一项评价指标[6]。

基于实例的评价：上述基于类的评价方法独立对待每个属性，忽略了多属性识别问题中存在的属性间相关性。因此，本文还使用基于实例的评估方法来衡量每个实例(图像)的属性预测精度和召回率。与假设属性间相互独立的mAP不同，基于实例的评价方法还考虑属性间相关性。本文根据标注好的真实属性标签计算每个测试图像的预测属性的精度和召回率，然后对所有测试图像计算精度和召回率的平均值，得出平均精度(mPrc)和平均召回率(mRcl)。本文还计算了基于mPrc和mRcl的F1值[3]，用mAP、mPrc、mRcl和F1这四个指标进行全面的评价。

3.3 训练策略与参数设置

为了加速收敛，采用两阶段训练策略。第一阶段主要是对CNN进行培训，本文将CNN转换为多标签分类框架，用T个神经元代替输出层(T代表行人属性类的数量)，采用多标签Sigmoid激活函数和交叉熵损失函数，基于ImageNet预训练的CNN模型进行微调和训练。第二阶段，移除CNN的全连接层并固定其他参数。然后基于CNN提取的特征，从零开始训练ConvLSTM和通道注意力模型。

本文采用TensorFlow实现所提出的模型，CNN使用多标签版本的Inception-v3[19]。两个阶段都采用Adam优化器，第一阶段冲量值为0.9，第二阶段冲量值为0.999，第二阶段采用Xavier初始化。为避免过拟合，两个阶段都采用随机失活(dropout)和L2正则化，随机失活率设置为0.5，L2正则化权重为0.000 5。学习率初始化为0.000 1，损失稳定后以10倍衰减。

3.4 与其他方法的对比结果和分析

本节将本文方法与其他7种当时领先(state-of-the-arts)的方法进行比较，包括3种基于CNN的方法和4种基于CNN-RNN联合模型的方法。其中DeepMAR[8]、ACN[10]、HP-net[12]、JRL[13]、RA[16]在1.2小节已有描述，这里不再累述。CTX[20]是一个基于CNN-RNN的序列预测模型，用于编码场景上下文和行人间的关系，以便提取图像中的行人属性。SR[21]是一个很好的多标签图像分类模型，它利用标注好的属性标签进行有监督的深度学习和更丰富的图像嵌入学习。

本文方法与其他方法比较的实验结果如表1和表2所示。通过分析结果可以得出以下结论：(1) RAP上所有方法的性能都低于PETA，这表明RAP数据集更具挑战性。(2) 本文提出的CNN-ATT-ConvLSTM模型在两个数据集的mAP、mRcl和F1指标上都取得最好的性能，在mPrc指标上取得与最好的方法相当的性能。考虑到要在两个数据集上获得所有评价指标都最好是非常困难的，本文方法获得了非常好的结果。

表1 在数据集PETA上与其他方法的性能对比 %

表2 在数据集RAP上与其他方法的性能对比 %

实验结果清楚地表明本文提出的CNN-ATT-ConvLSTM模型在行人属性识别中的优势。这主要是因为该模型在预测不同的属性标签时，不仅能有效地处理最相关的属性特征，而且能保持视觉特征的空间信息，这有利于充分挖掘属性相关性从而提高行人属性识别的性能。

3.5 ConvLSTM和通道注意力的效果分析

为了验证本文模型(CNN-ATT-ConvLSTM)中卷积LSTM和基于通道的注意力机制的有效性，将其与CNN的多标签版本进行比较，并与其他一些基于CNN-RNN框架的方法进行比较，包括CNN-LSTM、包含注意力的CNN-ATT-LSTM、没有注意力的CNN-ConvLSTM、包含基于空间注意力机制的CNN-SA-ConvLSTM。为了进行公平比较，所有CNN-RNN框架都使用与本文模型相同的CNN(即Inception-v3)。

实验结果如表3和表4所示，可以看出，本文提出的CNN-ATT-ConvLSTM模型取得了最好的性能。CNN-LSTM在没有注意力机制的情况下，性能下降较多，这表明行人属性识别任务中不同区域对不同属性的重要性以及注意力机制的有效性。CNN-ConvLSTM与CNN-ATT-LSTM得到了相似的结果，这表明ConvLSTM在相关区域空间信息提取中的有效性。图4所示热力图为ConvLSTM在预测行人属性时对该属性相对应的图像区域通常具有较高的激活响应，表明ConvLSTM的卷积运算实际上具有隐式空间注意力的效果。CNN-SA-ConvLSTM的结果比不含注意力机制的CNN-ConvLSTM略好，比本文的含通道注意力的CNN-ATT-ConvLSTM有较大差距，主要原因是基于空间的注意力机制与ConvLSTM隐含的空间注意能力在作用上有重叠，对行人属性识别的性能提升不大。而通道注意力机制能基于特征相关性进行加权调整和选择，与ConvLSTM的空间相关性能力相结合，能有效提高行人属性识别的性能。总的来说，本文方法比其他方法表现得更好，这证明了本文的CNN-ATT-ConvLSTM模型的优越性。

图4 ConvLSTM在预测不同区域行人属性时的热力图

表3 在数据集PETA上ConvLSTM和通道注意力效果分析 %

表4 在数据集RAP上ConvLSTM和通道注意力效果分析 %

3.6 优化预测顺序的效果分析

行人属性可以分为两组：一组是全局属性，如性别、年龄区间和体型等；另一组是局部属性，如发型、服装样式和手提物等。预测顺序是影响行人属性识别性能的一个重要因素，本文提出优化的预测顺序，即先预测全局属性再预测局部属性。全局属性通常不依赖其他属性就可以预测，例如，即使许多其他属性不清楚，性别和年龄也比较容易被识别出来。因此应尽量在序列的开头进行预测，由全局视觉特征来确定，以避免被错误的局部属性标签所误导。而先识别全局属性对于预测其他相关的局部属性非常有帮助。例如如果识别出一个行人的性别是女性，那么她留长头发的概率就更大。因此，在识别出性别属性后再预测头发长度属性时，该属性被正确识别的概率就大些。

本文把从全局属性到局部属性的优化预测顺序和随机预测顺序进行了对比实验，实验结果如表5和表6所示。表中所列的实验结果证实了本文的推论，即优化顺序的性能优于随机顺序。

表5 在数据集PETA上优化预测序列效果分析 %

表6 在数据集RAP上优化预测序列效果分析 %

4 结语

本文提出一种新的CNN-ATT-ConvLSTM模型，用于挖掘行人属性的语义相关性和空间信息以提高行人属性识别的性能。在该模型中，CNN与基于通道的注意力机制相结合以提取与所预测的行人属性最相关的视觉特征，利用ConvLSTM挖掘属性的相关性并保存属性的视觉特征空间信息，并以优化的预测顺序对行人属性标签进行逐个预测。实验证明该方法比许多现有的方法取得更好的行人属性识别效果，体现了该方法的有效性和性能优越性。在后续工作中将尝试修改ConvLSTM内部的门结构并探讨注意力机制与ConvLSTM的不同结合方式，以便更有效地挖掘行人属性的相关性以进一步提高行人属性识别的效果。另外，我们将尝试把有较强相关性或依赖性的属性放在一起进行预测，增强属性预测的约束，以提高行人属性识别性能。