基于部件精细化分割的行人检索方法

2020-08-07赵延

现代计算机 2020年18期

赵延

（北方工业大学城市道路交通智能控制技术北京市重点实验室，北京100144）

0 引言

行人检索是利用计算机视觉的技术和方法，在摄像头等设备采集到的图像数据集中，搜索目标行人的图像。行人检索可以作为人脸识别的一个补充，当行人图像中缺乏有效的人脸信息时，通过识别行人图像的非人脸信息是一个常用的检索方法。行人检索是一个复杂的问题，同一个行人受到多种因素干扰，如行人走路姿态、服装穿戴、图像清晰度等，大大提高了行人检索的难度。

近年来，随着深度学习的飞速发展，对于行人检索已提出许多方法。文献[1]采用了垂直分割行人图像的方式，利用长短时记忆网络提取部件特征，这种方法对行人图像对齐有较高的要求。文献[2-3]采用人体骨架关键点模型，将人体分为若干个区域，提取部件特征和全局特征，最终得到一个融合全局特征和多个尺度部件特征的行人特征。

1 基于部件精细化分割的行人检索方法

1.1 行人对齐

在行人检索过程中，行人所处的不同背景会影响图像检索的准确率。采取部件特征提高识别准确的前提是部件的准确定位[9]，所以，行人图像的对齐是提高识别准确率的方法。文献[4]提出了一种基于SP 距离自动对齐模型，采用动态对齐算法，可以在无额外信息的情况下自动对齐部件特征。

1.2 行人精细化分割

行人图像分割主要有两种分割方式：按语义划分成头部、躯干、四肢等，或将图像垂直划分成多个水平横条部件。

本文采用垂直划分的方式，提出一种行人图像部件的精细化分割方法，将图像划分为p 个水平横条，每个水平横条再按像素划分成m*n 个色块，将色块按照颜色区分，匹配最近的同色色块，加强部件内部的一致性。通过部件池化来纠正内部的不一致，根据各部件的相似性来分配所有列向量，为此我们需要动态的对所有列向量进行分类。使用线性层和Softmax 激活函数作为部件分类器。

1.3 部件特征提取

本文使用卷积神经网络提取特征，选择相似性度量方法对提取的特征进行度量，本文采用Triplet Loss[8]，Triplet Loss 是深度学习中的一种损失函数，用于训练差异性较小的样本。

将进行精细化分割处理后的p 个水平横条通过一个传统的平均池化，将p 个水平横条在空间上进行下采样，得到p 个列向量gi(i=1,2,…,p)。然后通过一个1*1 的conv 卷积，降至256 维，得到p 个列向量hi(1*1*256)，并输入到分类器中。本文经过验证，将p值取为6。

1.4 多分支特征融合

得到部件特征后，将各部件特征、全局特征作为分支特征，输入到多分支网络中，得到一个增强的特征，提高了行人检索的准确率。多分支网络如图1 所示。

图1 多分支网络

2 实验与分析

实验环境是基于PyTorch 框架，实验硬件设备：

NVIDIA GeForce GTX 1060 6GB。

2.1 实验所用数据集与评价指标

本文算法在Market-1501、DukeMTMC-reID 两个数据集上进行测试。

Market-1501[5]在清华大学校园中采集，拍摄时间为夏季。采集所用摄像头共6 个（高清摄像头5 个，低清摄像头1 个），共拍摄1501 个行人、32688 个行人图像。其中训练集751 人、12936 个行人图像；测试集750 人、19732 个行人图像。

DukeMTMC-reID[6]源自在杜克大学中8 个不同的摄像头采集的85 分钟高分辨率视频，拍摄时间为冬季。从视频中每隔120 帧采样一张行人图像，共1404个行人、36411 个行人图像。其中来自702 人的16522个训练图像；702 人的2228 个查询图像和17661 个待匹配图像。

评价指标有：Rank-1：指检索结果中最靠前的一张图是正确结果的概率，一般通过实验多次来取平均值。mAP：平均检索精度，是检索中，用于衡量精度的指标，数值越高，检索结果越好。

2.2 精细化分割与其他分割方法的对比

在表1 和表2 中将我们提出的方法分别在Market-1501 和DukeMTMC-reID 数据集上与已发布的方法进行了比较。与现有技术相比，本文的方法取得了很好的效果。在Market-1501 测试中，Rank-1 为93.8%，mAP 为80.8%。在DukeMTMC-reID 上，Rank-1为65.1%，mAP 为55.6%。检索结果示例如图2 所示。