APP下载

基于注意力模型的行人属性识别方法

2021-03-17胡剑波郑江滨

科学技术创新 2021年5期
关键词:行人注意力模块

胡剑波 任 劼, 郑江滨

(1、西安工程大学电子信息学院,陕西 西安710048 2、西北工业大学计算机学院,陕西 西安710072)

1 概述

在智能监控系统中,行人的属性识别是一个热点研究课题。行人属性是指人的一些可观测的外部特征,可作为重要的生物特征信息被用于行人再识别,安防监控,智慧城市等领域中。根据属性的类型,可将行人属性分为具体属性和抽象属性两种。具体属性是对人物图像中,人的不同区域的具体细节描述。抽象属性与一些抽象概念相对应,如性别、身体朝向和年龄等,这些抽象概念通常不能从单个区域进行分析。

随着深度学习的研究,卷积神经网络(Convolutional Neural Networks,CNN)[1-3]在行人识别中展现出了显著的优势。为了进一步提高识别性能,一些学者采用增加网络深度的方法对CNN的网络结构进行改进[4]。但是,随着网络深度的增加和模型的复杂度增高,所需的训练时间和硬件实现难度会增加。除了增加网络的深度外,加入注意力模块是提高行人属性识别准确度的另一种有效方法[5-8]。注意力模型通过模拟人脑的工作方式,使神经网络只聚焦于作为特定输入的图像的某一块区域。与传统算法相比,此类模型大大提高了信息处理的效率和准确性,降低了高维数据处理的计算复杂度。

综上所述,本文提出了一种基于注意力模型的行人属性识别算法(Main-net with Convolution Block Attention Module,MCBAM)。所提出的算法采用了已在各识别任务中表现良好的Inception-v3[9]网络作为基础,加入了注意力提取模块CBAM[10],提高对细节属性的识别能力。为了验证所提出算法的有效性和可靠性,通过测试并与现有的算法进行对比验证,实验结果表明MCBAM在减小了模型大小的基础上,保持了良好的精确度。

2 基于CBAM 的行人属性识别方法

MCBAM 网络分为两部分,第一部分为主网络(Main Net),由一个卷积层,一个CBAM,以及三个IBC(Inception Block with CBAM)组成。MCBAM网络的具体结构如图1 所示。在主网络中,输入图片首先通过卷积层(Conv)进行较为底层的特征提取,再将通过CBAM对特征进行空间及通道注意力信息提取,最后在三个IBC 模块中进行细节信息特征提取。第二部分由全局平均池化(Global Average Pool,GAP)与全连接(Fully Connected,FC)组成,主要是对主网络提取的特征进行约束以及分类输出。

图1 MCBAM 的网络结构

2.1 CBAM

2.2 IBC

在CNN 不断加深网络结构的背景下,庞大的计算量使得网络计算成本不断增加。在现有的特征抽取网络后加入注意力提取模块则可以提高网络识别性能,使深度不太深的简单网络也可以达到深度较深的网络的所能达到的性能。所以,本文将Inception 网络和CBAM结合,组成了IBC 模块,对特征进行抽取。

选取Inception-v3 作为特征提取的基础网络是由于该网络不仅可以减少计算量和参数的个数,并且在增加了网络宽度的同时,增加了网络对尺度的适应性。

2.3 GAP 层和FC 层

GAP 层的作用是对整个网路在结构上做正则化防止过拟合,再引入GAP 层的同时加入FC 层。FC 层的作用则是对特征进行分类。经过主网络得出的特征,将其全部联系起来,最后经过GAP 和FC 层。最终的输出可以投影为属性识别的属性逻辑或重新识别的特征向量。

2.4 损失函数

本文选取结合sigmoid 的BCE Loss(Binary Cross Entropy Loss)作为平衡分类的损失函数。该函数由Sigmoid-BCE Loss 合成,如公式(1)所示,首先利用sigmoid 函数将输入x 调至0-1 之间,再传入BCE 函数中进行损失计算,如公式(2)所示。

式中yij表示目标值,也就是正确值,M、N 分别表示每个小批次中的样本数目和属性数量,pij表示第i 个样本的第j 个属性的输出预测值。最终求出的值就是所需的损失值。

3 实验分析

实验在ubuntu16.04 系统下进行,采用两个公版的NVIDIA GEFORCE 2080(8GB)GPU 进行SLI。

在实验中,我们将随机梯度下降的方法作为优化器,初始学习率设置为0.002,动量设置为0.9。为了验证所提出算法的有效性,本文采用了平均准确率(mA)、准确度(Accu)、精准度(Prec)、召回率(recall)and F1 得分(F1-score)这五个评估标准对所提出的算法和现有的算法在使用PETA 和PA-100K 两个数据集下进行了对比。

3.1 PETA 数据集中结果分析

PETA 数据集由8 个室外场景和2 个室内场景组成,包含8705 个行人,每个行人标注了61 个二值的和4 个多类别的属性。图2 为采用PETA 数据集时的两组属性分析结果,例如图2(a)中的识别结果为年龄在31-45 岁之间,穿着鞋子的短发男子。其中男子的属性作为默认属性,并不显示。

表1 采用PETA 数据集的性能分析

图2 采用PETA 数据集的两组属性分析结果

3.2 PA-100K 数据集下实验对比

PA-100K 包含100000 张行人图片,分别拍摄于598 个场景,其属性被设置为26 种,有性别、年龄以及物体属性。针对PA-100K 数据集,对本文所提出的算法与DeepMar,MNet 以及HY-net 的结果进行了对比分析。

图3 为采用PA-100K 的数据集时的两组行人属性分析结果。例如图3(a)中的识别结果为年龄在18-60 岁之间男性,侧位站立,戴眼镜,身穿长袖衣服和裤子。

图3 采用PA-100K 数据集的两组属性分析结果

表2 显示了PA-100K 数据集下,Deep-MA、MNet、HY-net以及B 分别为8、16、32 时的MCBAM实验方法的对比结果。可以看出,MCBAM 在得分中,超过了Deep-MAR,MNet 及HY-net。

相比于PETA 数据集,MCBAM 在数据量更大的PA-100K数据集上更能展示网络优势。从B 的对比中可以发现,网络MCBAM在B=8 的时候,mA 超过了B=16 和B=32 的网络。这表明,当B 取值较小时,网络模型更加注重细小的特征。

结束语

本文提出了一个基于注意力机制的网络结构。该网络结合了Inception 模块和CBAM。利用Inception 的优势,减少了网络参数,利用CBAM 提取通道和空间注意力图,提高了行人属性分析的准确率。网络被用于PETA 和PA-100K 数据集上做实验,在不同的batch size 下训练,与现有算法进行了对比分析。实验结果表明,该网络具有良好的准确性和实用性,具有较高的应用价值。尽管该算法取得了良好的效果,并且模型大小可观,但仍然存在一些缺点,需要进一步改进。由于细小的属性对识别难度有着一定的影响,未来的工作是通过结合不同层次的特征,以及寻找一个适合小型网络的损失函数来提升网络的准确度。

猜你喜欢

行人注意力模块
28通道收发处理模块设计
“选修3—3”模块的复习备考
让注意力“飞”回来
毒舌出没,行人避让
路不为寻找者而设
我是行人
A Beautiful Way Of Looking At Things
必修模块相关知识过关训练
阅读理解两则