基于边缘智能终端的跨模态行人重识别方法及应用

2023-10-07卞紫阳许廷发马亮李佳男

兵工学报 2023年9期

卞紫阳, 许廷发, 马亮, 李佳男

(1.北京理工大学光电成像技术与系统教育部重点实验室, 北京 100081;2.华北光电技术研究所, 北京 100015; 3.北京理工大学重庆创新中心, 重庆 401120)

0 引言

行人重识别(Re-ID)广泛用于视频监控、安全和智慧城市等各种应用中,旨在解决在不同位置部署的多个不重叠摄像机中检索感兴趣的行人问题,由于其在智能视频监控中的重要性,已经引起了计算机视觉界越来越多的关注[1-3]。当前大量的Re-ID模型都着眼于可见光-可见光行人图像匹配,最常见的单模态Re-ID任务如图1所示,给定一个探测到的行人图像,并将其与其他不重叠的摄像机捕获的一组图像进行匹配,该组图库包含所有可见摄像机数据。由于照明、相机型号的差异,以及视角和姿势的变化,前景行人图像可能会变化很大。尽管存在这些挑战,但随着深度神经网络的发展以及Re-ID研究的持续推进,在单一可见模态下,可见光-可见光Re-ID取得了很大进步并达到了很高的精度[4-6]。不过,由于可见光Re-ID在某些不良的光照条件下,例如在黑夜中无法给出相应的判别信号,如果只通过可见光摄像机而没有额外的人工光源,则应用将受到限制,因为该系统在每天的一半时段内都无法正常工作,从而极大地影响了Re-ID的实际应用。图1中,T1、T2、T3分别为3个不同的时间点在不同的相机中对行人目标进行成像。

在实际情况下,如果使用24 h智能监控系统,则可以在白天通过可见摄像机获取探测图像,在夜间通过热像仪捕获图像,图像来自不同的模态。对于实际应用,现代监视系统通常以双模态运行,即白天在可见模态下工作,在夜间自动切换为红外模态。给定行人的红外图像,目标是匹配相应行人的可见图像。此跨模态图像匹配任务称为可见光红外 Re-ID。与具有丰富色彩信息和结构图案的可见光图像相比,红外图像是在红外光谱下捕获的,由于可见光谱的反射率和热光谱的发射率之间存在自然差异,从而导致外观完全不同,失去了鲜明的颜色特征。模态差异使得在可见光光谱和红外光谱之间识别同一个人变得更加困难。这个新问题是一个交叉模态问题,近年来只有少数相关的前沿工作[7-9]。

为推动跨模态Re-ID技术在智能系统与装备中的实际应用,参考边缘智能终端[10-15]的部署应用,本文提出一种高效的跨模态波长增强的Re-ID方法,在波长域进行数据增强的同时保留可见图像的结构信息,以弥合不同模态之间的差距。同时,本文基于国产化RK3588芯片设计了边缘智能终端,部署了跨模态Re-ID算法,并设计实现了人工智能综合视频监控软件。实践表明,本文方法在两个基准数据集SYSU-MM01[16]和RegDB[17]上取得了较好的性能,并能够在实际场景中应用部署。

1 跨模态Re-ID方法

1.1 红外可见光跨模态Re-ID数据集

为了研究可见光红外跨模态Re-ID问题,需要收集同一行人对应的可见光图像和红外图像,如图2所示。文献[16]提出了SYSU-MM01数据集,其中包括由4台可见光摄像机以及2台在室内和户外拍摄的近红外摄像机所拍摄的影像,其中可见光图像由Kinect V1在明亮的室内房间拍摄,红外图像由近红外相机在黑暗条件下拍摄。

图2 跨模态Re-ID方法及数据集(左为SYSU-MM01数据集,右为RegDB数据集)

文献[17]中提出了一个新的称为RegDB的可见光热红外数据集,该数据集利用文献[16]中的原始数据,并设计了类似于SYSU-MM01数据集的架构。RegDB[17]数据集中,可见光摄像机拍摄的图像分辨率为800×600像素,红外摄像机拍摄的图像分辨率为640×480像素,共采集了412名行人的8 240张图片(包含4 120张可见光图像和4 120张对应的红外图像)。主要区别在于,SYSUMM01包含可见光和近红外图像,而RegDB包含可见光和远红外图像,这使得一些方法在两个数据集中都难以工作。由于波长较短,来自SYSU-MM01数据集的近红外图像具有清晰的边缘和清晰的背景。作为比较,RegDB数据集中的远红外图像边缘模糊,丢失了许多彩色图案。

1.2 红外可见光跨模态Re-ID方法

较大的跨模态差异是红外可见光跨模态Re-ID的最大问题,这是由可见光和热像仪的不同反射可见光谱和感测到的发射率引起的。可见光图像具有3个通道,其中包含波长范围为400～700 nm的可见光颜色信息,包含足够的人的肤色信息;热图像具有一个包含不可见光信息的通道,其波长比可见光的波长更长。因此,这两种方式本质上是不同的,导致可见光Re-ID中行人最重要的颜色信息特征,很难用于红外可见光跨模态Re-ID的异构数据。当将这两种模态的图像直接进行联合跨模态学习时,大多数现有的红外可见光跨模态Re-ID方法变得对参数敏感,难以收敛且计算量大。

目前的红外可见光跨模态Re-ID方法大多将输入图像转换为相同或不同的模态图像,或由GAN生成相似的图像,受到以下限制:

1) 将可见光图像、灰度图像、红外图像同步输入网络,但忽略它们对波长的依赖性会丢失波长之间相关性的大量信息,影响最终性能,如图3(a)所示。

图3 红外可见光跨模态Re-ID方法

2) 不同层次特征之间的不同感受野可能会降低直接特征融合的效果,因为结果感受野减少。

3) 来自不同模态的图像很少,仅在3个RGB通道中保持可见光图像的颜色或简单地将可见图像转换为灰度图像就限制了跨模态Re-ID的数据增强,如图3(b)、图3(c)所示。

本文提出了一种颜色抖动增强方法,用于数据增强模型中不同波长之间的关系,如图3(d)所示。在文献[18]中提出的基于同质增强的三元跨模态Re-ID学习方法的基础上,在基于亮度、对比度、饱和度和色调空间的抖动,从可见图像生成增强模态,在波长域进行数据增强的同时保留可见图像的结构信息。对于每一张红外图像xt,其三通道灰度图像xf由式(1)生成:

xf=f(xt)

(1)

式中:函数f(xt)为由原始红外图像中的单通道灰度图像到三通道灰度图像的映射,具体操作中在Pytorch中使用Grayscale(3)函数来实现,xt为红外图像。对于每一张可见光图像xv,其增强模态图像xg由式(2)生成:

xv=g(xg)

(2)

式中:函数g(xg)为由原始可见光图像中的RGB三通道到增强模态的映射,具体操作时通过在torchvision中使用torchvision.transforms.ColorJitter()函数来实现亮度、对比度、饱和度和色调空间的随机调整。与现有的数据增强方法不同[18],颜色抖动增加了每个波长的多样性,从而为整个输入产生了更多不同强度波长的信息组合。有了这种颜色抖动,生成的图像将在不同波长上有效地增加互补信息,而不需要额外的注释数据。然后将红外、可见、增强模态3种图像经过一个参数共享的单流网络来学习不同图像输入之间的关系,并根据这种关系从不同的模态中搜索物体。

2 边缘智能终端部署

2.1 硬件实现

与目标检测、目标跟踪等一般视觉人工智能任务可采用单一计算机后端不同,跨模态Re-ID技术是跨摄像机多视角的视觉人工智能任务,涉及到多路视频流信号的联合分析,在前端设备数量较多的情况下,单一处理后端难以满足实际的人工智能推理高计算量需求,限制了整体应用系统的扩展性。

为了验证及演示本文提出的跨模态Re-ID技术的先进性及实用性,本文单独设计了一套边缘计算系统,如图4所示。边缘计算系统以板卡的形式将跨模态Re-ID神经网络推理单元集成到每路摄像设备前端。实际工作时,可见光、红外模态视频流数据经过边缘计算系统实时处理分析后,将图像与人工智能推理结果一同回传给后端,降低了数据集中处理的计算压力,且系统弹性可扩展,不受接入前端设备的数量影响,更符合跨模态Re-ID任务的实际应用场景需求。

如图5所示,边缘计算系统硬件方案以国产瑞芯微RK3588处理器为处理核心,该处理器采用四核ARM Cortex-A76+四核Cortex-A55处理单元,搭配16G板载内存,系统整体具有高性能、低功耗的特点,典型功耗10 W。内置NPU(神经网络处理单元),支持INT4/INT8/INT16/FP16混合计算,含3个NPU独立核心,可联合计算亦可单独工作,浮点计算运算能力高达6TOP。具备H.264/H.265/VP9/AVS2等格式的专用编解码硬件模块,支持高达8k分辨率视频流的实时编解码。系统支持2路千兆以太网接口。同时针对多模态视频监控的特定任务场景,本文方案扩展搭配ADV7281A模拟视频解码芯片,提供四路模拟视频接口,兼容NTSC/PAL/SECAM多制式模拟视频,形成了完整的模拟/数字视频流的兼容支持能力。提供5组RS-485接口,可以对转台、云台等设备进行串口控制。

图5 基于RK3588处理器的边缘智能终端实物图(左为终端正面,右为终端反面)

2.2 软件环境

边缘计算部署软件环境由PC端开发转换环境与边缘段部署运行环境两部分组成。

PC端开发转换环境为瑞芯微提供的RKNN Toolkit2工具链,其包含一组兼容Caffe、TensorFlow、ONNX、PyTorch等人工智能框架,进行神经网络模型调整、优化、转换的基础软件工具及多语言编程接口,用于将训练完成的人工智能网络模型转换输出为RKNN专用格式。如图6所示,边缘端部署运行环境具体包含:

图6 边缘智能终端软件示意图

1) 视频流取流模块,用于读取可见光或红外热成像摄像机视频流,支持RTSP/RTMP等网络流格式的网络摄像机或者MIPI/USB接口的数字摄像头设备。

2) 人工智能神经网络推理核心单元,其为瑞芯微官方提供的RKNPU2基础NPU推理环境,其作用是将PC端处理转换后的RKNN格式的神经网络模型部署在芯片专属NPU单元中,同时接收取流模块获取的可见光或者红外视频流进行神经网络推理,并向后输出推理结果。

3) 流媒体服务器模块,用于将通过人工智能神经网络处理后的可见光或红外视频流进行二次推流输出到后端。针对显控终端软件不同显控需求,本文提供3种视频流输出方式:针对调试、非人工智能显示功能,提供原始视频流转发透传模式;针对一般性非交互人工智能推理显示功能,提供叠加显示模式,即人工智能推理结果与原始视频图像叠加后输出给后端;针对客户端需要对人工智能推理结果进一步加工的功能,提供人工智能推理结果单独输出模式。

4) 设备串口控制模块,用于向摄像机前端发送串口控制命令,控制其转动、扫描等功能动作。

5) Web服务模块,用于向后端提供直观、易用的基于Web界面的设置接口,同时可实时向后端报告边缘计算系统运行状态,包括板载各项硬件状态、软件功能模块、通信状态等部分的实时监测信息,易于显控终端程序对板载各个系统进行监测,并对板载资源进行相应的规划与调整。同时提供GUI接口,配置看门狗、上电重连、断线重连、灾难恢复等功能辅助功能,最大化板载功能的易用性。

该设计方案通过引入层级配置文件的配置方案,提供系统状态版本切换功能,即可根据具体应用场景需求,通过上传系统功能配置文件的形式,一键切换系统工作状态,或者通过提供不同版本的系统配置文件,针对具体情境进行工作状态动态切换,便于系统调试或者提供基于场景的工作模式切换功能。

如图7所示,该设计通过将系统抽象成相互独立的功能模块,相互之间通过接口结合配置信息进行组合形成具体功能的形式,最大化地保持了系统的扩展性,以适应不断变化的应用需求。同时,模块化的设计支持对每个独立功能部分进行迭代升级,或者引入新的功能模块,为系统提供最大化向后扩展可能性保障。通过Web向用户提供直观、易用的用户交互接口,系统所有功能设置、参数设置、系统状态等均可通过该用户接口进行统一设定,最小化系统使用难度。

图7 边缘智能终端软件依赖关系图

3 实验与结果分析

3.1 模型训练与部署

如图8所示,模型训练分为以下4个步骤:

图8 模型训练流程图

步骤1数据准备及格式转换。将SYSUMM01、RegDB多摄像机可见光、红外热成像图像数据混合、清洗、均衡化,统一转换为PASVCAL格式数据文件。

步骤2将预处理的多模态数据进行增强,即在基于亮度、对比度、饱和度和色调空间的抖动,由可见图像生成增强模态,在波长域进行数据增强的同时保留可见图像的结构信息。

步骤3根据数据集多模态成分具体构成,决定模型每个训练周期训练数据分割策略、模型学习率调整关系等策略参数,构建输出训练模型策略配置文件。

步骤4执行模型训练程序,训练结束后生成.pth格式神经网络模型。

将训练生成的.pth神经网络模型权重文件转换为瑞芯微专属RKNN格式,必须先将其转换为ONNX格式。ONNX(Open Neural Network Exchange)是一种针对机器学习所设计的开放式文件格式,用于存储训练好的模型,它使得不同的人工智能框架(如Pytorch, MXNet)可以采用相同格式存储模型数据并交互,通过调用torch.onnx模块将神经网络模型权重文件转换为.ONNX神经网络交换文件。

下面通过调用RKNN Toolkit2工具,将.ONNX文件转换为瑞芯微专属RKNN专属神经网络权重文件,并存储于边缘计算板的预定目录。利用RK3588部署时,实际采集的可见光和红外图像分辨率不一致,可见光图像分辨率为1 920×1 080,红外图像分辨率为640×512。实际部署中,将可见光图像降采样为640×512作为模型的输入,对不同分辨率的图像调整为一致的分辨率进行处理。通过与边缘计算版取流与流媒体服务器模块结合,可完成可见光/红外图像实时读取分析回传后端的完整边缘计算功能。

3.2 实验结果分析

将本文方法与HCML[19]、Zero-Pad[16]、HSME[20]、D2RL[21]、MAC[22]、MSR[23]、HAT[18]方法在两个基准数据集SYSU-MM01[16]和RegDB[17]上进行实验和比较。用Rank-1表示搜索结果中最靠前(置信度最高)的1张图有正确结果的概率,Rank-10表示搜索结果中最靠前的10张图有正确结果的概率,Rank-20表示搜索结果中最靠前的20张图有正确结果的概率,mAP表示平均精度均值。其中在SYSU-MM01数据集上的运行结果如表1所示,从中可见本文方法在Rank-1、Rank-10、Rank-20和mAP这4项评价指标上都优于其他方法;在RegDB数据集上的运行结果如表2所示,从中可见本文方法在Rank-1、Rank-10、Rank-20和mAP这4项评价指标上也均优于表中其他方法。实验结果表明,本文提出的方法在两个基准数据集SYSU-MM01和RegDB上都取得了较好的性能。