基于边缘云计算的分布式行人重识别方法①

2021-11-10张晓璐

佳木斯大学学报(自然科学版) 2021年4期

张晓璐

(福建林业职业技术学院自动化工程系，福建南平 353000)

0 引言

随着深度学习技术的发展，属性识别和行人重识别的研究引起了广泛的关注[1-2]。云数据中心中具有强大的算力，能够提高执行计算密集型深度神经网络的效率。但是，由于回程网络的延迟性以及从摄像机到数据中心的大量数据传输，在云数据中心中部署行人重识别无法满足识别的实时要求。因此，可行的解决方案是在摄像机附近采用移动边缘云(MEC)并实现分布式推理。随着5G技术的发展，边缘计算(EC)技术成为计算密集型计算任务的有效优化手段[3]。利用边缘云计算技术，设计了分布式行人重识别(ECCreID)框架。

1 系统模型

如图1所示，所考虑的监控环境由多个摄像机通过边缘云网络互连组成，用G={C∪V,E}表示。其中，集合C是一组监控摄像机集合，集合V是一组具有强大算力的边缘云计算服务器，集合E是连接摄像机和边缘云计算服务器的链路集合。摄像机ci∈C通过集合E中的链路传输视频数据流会消耗网络带宽资源，并会引起通信延迟。网络链路的通信延迟取决于许多因素，例如链路的拥塞程度。因此，这种延迟通常是不确定的，延迟信息无法预先获得。每个边缘服务器vi∈V中的计算资源用于执行实时人员重识别和属性识别，从而产生处理延迟。

图1 系统模型

在边缘云计算(Edge-Cloud Computing，ECC)网络中处理视频流会造成延迟，其中包括通过将视频或特征从摄像机传输到边缘服务器的传输延迟以及边缘服务器的处理延迟。MEC中不同边缘服务器和通信链路中的延迟会不相同。用rj表示ECN中的请求，每个rj承载一定数量的视频数据以进行处理。在边缘服务器中，处理请求rj的数据流所经历的延迟取决于其传输速率和工作量。由于请求是按时隙调度的，因此假设每个请求所经历的延迟在时隙t内不会改变，并且可以在时隙t的最开始处获得。在每个链路e∈E中，传输请求视频流rj的延迟随时间变化，并且请求rj到达系统的时间是不确定的。

给定ECC网络G={C∪V,E}，一组请求R(t)在每个时隙t开始时到达，分布式行人重识别问题是指将请求划分为不同的模块，然后将模块分配给相应的边缘服务器，从而使重识别的准确性最大化，延迟则最小化。

2 ECCreID框架设计

2.1 框架关键模块

摄像机收集的原始视频流中有很多冗余信息。为了避免传输冗余信息的延迟，在每个摄像机中使用行人检测器，以从视频流中提取行人的有效图像。设计了一个CNN模型用以行人识别和属性识别，我们的基本思想是使用最少的模块间通信将请求处理框架划分为不同的模块，这些模块可以分布到不同的边缘服务器，实现分布式处理。由于模块需要存储在边缘服务器中，因此模块的训练模型的大小也要最小化。

在行人重识别过程中，计算查询图像与图库中所有行人图像之间的特征相似度或距离非常耗时，其中图库是系统保存的一组照片。随着系统的连续运行，图库会变得非常大，从而使带有图库的边缘服务器成为系统的瓶颈。为了加快这一过程，考虑使用分布式图库来并行进行行人重识别。具体来说，将一个集中的图库分为多个分布式图库，将行人图像的标记特征存储在图库中。获取人的属性后，需要查找整个分布式图库组以识别人。系统为每个检测到的人记录一个实例，其中包含身份识别(ID)、属性和系统信息，系统信息描述了何时以及在何处检测到此人。

提出的分布式处理框架ECCreID包括以下关键模块：

行人检测模块：该模块在每个摄像机ci中运行，从实时视频流中检测行人图像，并将获得的图像传输到后继模块。

属性识别模块：该模块从行人检测模块接收行人图像，然后它通过使用CNN模型来识别人的属性。属性预测的输出与提取特征连接在一起。接下来的两层是完整连接层和批处理归一化层。最后，输出特征将发送到后续模块的每个实例以获取其ID。

分布式图库模块：每个分布式模块的实例都分发到不同的边缘服务器，图库GAi存储了摄像机ci的行人特征。从属性识别模块接收查询特征后，分布式图库模块的所有实例都会并行地计算查询特征与图库存储的所有特征之间的相似度，并将相似性将以降序排列。之后，最大相似度及其对应的ID标签将发送到后续模块。

分类模块：此模块从分布式图库模块的每个实例接收本地最大的标记相似度，并按降序对其进行排序。然后，该模块能获得全局最大相似度。定义一个阈值ε，如果全局最大相似度大于ε，则表明该人已被系统检测到，查询人的ID为具有全局最大相似度的人。然后，需要使用基于指数加权平均值的方法将新属性与实例中的旧属性融合。当任何摄像机都未检测到查询人时，需要通过该查询人分配唯一的ID并存储其属性来创建人员的新实例。无论哪种情况，都将添加框架信息，并且需要将ID结果发送回图库更新。

2.2 模型训练

同时考虑所有属性，并同时学习属性之间的关系。在模型训练中采用了多任务网络，该网络可以同时学习ID分类器和属性分类器。属性预测的输出与CNN提取的特征级联在一起，级联特征是ID分类器的输入。对于重识别，损失函数Lrid是ID标签上的分类交叉熵，即为式(1)：

(1)

其中，pik是样本为人k的预测概率，yik是真实的标签。N是训练样本数，K代表训练集中ID的数量。

为了最小化模型的规模并提高训练模型的准确性，通过同时考虑所有属性并同时学习属性之间的关系，来缓解属性识别中的冗余和低效率[4]。损失函数La是sigmoid交叉熵损失函数为式(2)：

(1-yij)log(1-pij))

(2)

其中，wj=e-ρj/σ2，pij是样本i的属性j的预测概率，yij是真实的标签，M是属性的数量。定义整体损失函数为式(3)：

L=λLrid+((1-λ)/M)La

(3)

2.3 模块分配

提出的模块分配算法的基本思想是采用基于上下文多摇臂赌博模型的在线学习框架。在提出的框架中，属性识别模块和分布式图库模块的位置起着至关重要的作用。网络延迟、图库大小及其流行度取决于当前摄像机状态和网络环境的上下文。在线学习算法并非始终运行，而是在上下文发生巨大变化时才进行重新学习。代理(Agent)可以在做出决策之前观察到此类上下文，将传输和处理延迟视为网络的上下文。

使用归一化的端到端延迟作为反馈，以h(·)表示。当计算和传输条件相同时，某个任务的延迟是固定的。假设在每一轮之前由确定性的遗忘对手选择了具有特定摇臂和上下文的成本h(·)。第t轮的成本用ht(·)表示，第t轮的上下文为xt，而a为选定的摇臂。T轮后策略π的成本为式(4)：

(4)

上下文赌博的最佳策略可以表示为[5]：π*(xt)=mina∈Act(a)，其中A是一组摇臂。相应的误差是：R*(T)=hOL-h*，其中，hOL是在T轮中累积的总误差，而h*=h(π*)。该误差是基于每轮的最佳策略π*，但是算法是每I轮更新一次。准确的最佳策略的误差应该为：

(5)

3 实验评估

在训练过程中，采用ResNet-50 作为训练模型，并在ImageNet 上进行了预寻览。对于行人重识别和属性识别，在pool5层之后添加一个512维的全连接层、一个批处理归一化层和一个Dropout层。对于训练策略，期数为80，batch的大小为32，学习率是0.02，在10个期内进行warm-up。实验采用Market-1501数据集，这是一个带有属性注释的行人重识别数据集。使用来自MOTChallenge 的视频序列评估本分布式算法。将本方法与现有的相似方法VE[6]进行比较。

行人重识别评估采用累积匹配特征曲线和平均精度均值。表1显示了在数据集Market-1501上本方法和现有方法的对比结果。从表中可以看出，与现有方法相比，此方法的Rank-1提高了7.63%，平均精度均值提高了15.42%。原因是较高的属性精度可提高重识别的精度。

表1 累积匹配特征和平均精度均值对比

对于属性识别，测试每个属性的分类准确性。对于地理上分散的摄像机融合，将同一个人的预测输出融合在不同的图像中。属性识别的结果如表2所示。结果比基准算法好得多。原因是对所有属性采用单个分类器，同时学习属性之间的关系，这优于对每个属性的分类器。此外，结合融合的方法的精度提高了，这意味着跨摄影机可以提高属性识别的性能。

表2 属性识别结果对比

为了评估有效性，将提出的方法与其他四种算法进行了比较。对比结果如图2所示，其中，此方法的性能最好。静态方法将所有模块分配给具有最强计算能力的边缘服务器。有结果可知，这种方法的执行效果最差。原因是边缘服务器容易发生过载，从而导致了巨大的处理开销。贪婪方法根据对当前网络上下文和历史信息来选择可以实现最小处理延迟的边缘服务器。但是，该方法没有考虑传输延迟，因此造成较高的总延迟。