基于跨尺度特征聚合网络的行人检测与跟踪

2022-07-29刘康安肖永超

智能计算机与应用 2022年8期

刘康安，肖永超

（上海工程技术大学机械与汽车工程学院，上海 201620）

0 引言

在复杂的交通环境下，通过对车辆前方行人进行有效的检测和跟踪，从而使自动驾驶系统及时做出判断和预警，对降低交通安全隐患具有重要意义。而检测算法模型精度与计算速度的优化，是保证稳定跟踪的前提与手段。

传统的行人检测方法主要是基于特征学习，通过特征提取和机器学习来实现图像或视频中的行人检测。其中，方向梯度直方图（HOG）是最常用的特征提取方法，通过HOG 行人特征描述子结合支持向量机（SVM）进行行人检测，具有较强的鲁棒性。与传统的检测方法相比，基于深度学习的目标检测算法，采用神经网络替代人为设定的特征提取器，具有强大的特征表示能力，显著提高了视频图像中目标检测的性能。在之前的应用中，最流行的检测网络是基于锚点的方法。这类方法设计了具有预定义尺寸和高宽比的先验框，并对先验框进行分类和回归，得到目标的边界框。然而，边界框的最小和最大尺寸会受到一定限制。在利用锚点检测目标时，由于不同范围内目标的大小不变性，会导致小目标行人的漏检，降低了检测精度；同时由于后处理需要从候选边界框中过滤出最终的边界框，增加了计算复杂度。近年来，人们提出了基于关键点的目标检测方法，此类方法无需设计先验框，避免了大量先验框造成的复杂计算。众多方法中，最具代表性的方法有ConerNet、ExtremeNet 以及CenterNet。其中，ConerNet 通过检测边界框的左上角和右下角，以确定目标的位置和大小，但这些角的语义信息相对较弱，难以检测，且该方法还需要对属于同一目标的2个点进行后处理，点的匹配难度较大。ExtremeNet使用最佳关键点估计框架，通过预测目标中心找到极值点。然而，由于所涉及的点数较多，其计算成本较高、且检测精度也未见显著提高。此外，由于网络过于关注边缘，容易导致误检。为此，Duan 等人提出了CenterNet，该算法只需要提取每个对象的中心点，就能回归出宽高尺寸、偏移量等目标，具有计算成本低、检测精度高且速度快等优点。

一般情况下，目标跟踪算法是根据前一帧的位置来预测下一帧的目标位置。现有行人跟踪算法包括均值漂移、粒子滤波、核相关滤波和深度学习等。Li 等人通过特征融合和均值漂移跟踪行人，并引入尺度不变特征变换（SIFT），增强跟踪方法的鲁棒性。但行人被遮挡时（即特征点数量非常有限），该方法则无法精准确定行人位置。Wu 等人基于粒子滤波算法，对粒子进行均值移位重采样，并在局部区域实现快速收敛。Henriques 等人提出了基于KCF（kernelized correlation filters）的跟踪算法，该算法只需指定目标的初始位置，就可以预测目标在下一时刻的位置，速度较快。然而，当形状发生较大变化时，会对预测结果造成影响；当目标被遮挡时，极易导致目标信息丢失。近年来，随着深度学习技术在计算机视觉领域的兴起，深度学习算法也被引入到目标跟踪研究领域。该方法可以同时检测目标，并学习连接特征。如re-ID 特征、外观特征或运动特征，从而进行数据关联。Gordon 等人提出利用长短时记忆（Long -Short Term Memory，LSTM）构建一种实时递归回归网络，从而对一般对象进行视觉跟踪。虽然该方法具有较好的实时性，但其跟踪结果不适用于杂乱区域内的小目标，会产生虚警，在快速运动时也会导致跟踪失效。

为了解决复杂道路场景下行人检测与跟踪所面临的问题，本文从优化目标检测器和跟踪算法两个方面考虑，提出了一种基于跨尺度特征聚合网络与自适应卡尔曼滤波的多目标行人检测跟踪算法。论文主要完成任务可表述如下。

（1）提出了从视频数据中检测目标行人的TFACN 和ROI-TFACN 方法。该方法利用跨尺度特征聚合（TFA），有效估计目标行人的中心关键点、尺寸和回归偏移量。在估计过程中，TFA 使用双向信息流，在不同的特征层之间上下流动，以提高准确性和效率。归功于该反馈流，TFA 帮助网络了解上层对下层的影响，反之亦然。

（2）提出RSCR（region of interest-scale-cropresize）方法，结合连续帧的上下文信息，进一步合并TFACN 和ROI-TFACN。该算法有助于信息在2 个被提出的网络之间流动，通过去除背景效应，放大小目标，帮助检测器聚焦于，不仅提高了精度，而且进一步降低了算法的计算复杂度。

（3）提出了一种优化的自适应卡尔曼滤波算法，通过实时调整观测噪声，提高行人跟踪准确度。

1 算法流程

本文提出的整体方法主要由TFACN、RSCR、ROI-TFACN 和动态估计组成，用于检测和跟踪行人。行人多目标检测跟踪流程如图1 所示。在检测部分，使用TFACN 获取上一帧目标的边界框。根据最终候选边界框的大小或边界框预测得分，选择最终候选边界框用于初始化跟踪器，并将其设置为RSCR 输入值。在当前帧中，根据RSCR 获得的，将512×512 像素的输入帧裁剪为128×128 像素，并用于ROI-CFACN 中预测目标边界框，从而最小化目标搜索区域，扩大小目标。将每一帧中获得的最终候选边界框保存为观测量。在跟踪部分，采用卡尔曼滤波算法来预测行人在当前帧中的状态，并采用匈牙利算法视频，对相邻帧中的行人进行关联，实现对行人多目标的稳定跟踪。

图1 行人多目标检测跟踪流程图Fig.1 Flow chart of pedestrians multi -target detection and tracking

本文选取CenterNet 网络作为目标检测器，将视频中的连续帧作为全卷积CNN 的输入，生成热力图（获取中心点）、大小（边界框的高度和宽度）和偏移量，具有计算成本低、检测精度高、且速度快等优点。在CNN 模型中，每个卷积层只能处理特定的尺度。然而，不同行人目标的大小差别很大，基于CenterNet 的模型只检测中心点，获取的目标信息较少，导致小目标行人的误检和虚警较多。因此，为保证模型对尺度变化的鲁棒性，必须提取多尺度特征。为了提高对小目标和遮挡目标的检测效果，本文提出基于中心点的跨尺度特征聚合网络（TFACN）。TFACN 以512×512 像素帧作为输入，对行人进行识别和定位，并提出候选的。第二个网络ROITFACN 使用裁剪的128×128 像素帧作为输入，通过降低背景复杂度来定位较低像素尺度的行人。这种策略不仅减少了计算成本，还限制了目标搜索时容易出现的误报次数。为了对多级特征图进行融合，本文设计了一个基于ResNet-18 的跨尺度特征聚合模块（TFA），以便通过其反馈连接提取更多的重要信息。

图2 不同特征网络模型示意图Fig.2 Schematic diagram of different characteristic network models

其中，通常是特征匹配的上采样或下采样操作，通常是特征处理的卷积操作。

由于层间单向信息流动，这种传统方法通常会抑制结果的准确性。为改进结果，本文提出了深度多尺度特征聚合（deep Multi -scale Feature Aggregation，MFA），如图2（b）所示。然而，这种网络也需要更多的参数，使得其计算复杂度很高。令CenterNet 使用2 种不同的骨干网来比较得到的准确性和效率。结果表明，MFA 具有较好的精度，但效率较低。为了在有限的计算资源下提高精度和效率，本文提出了一种新的基于MFA 和TFA 的网络。

在CenterNet 中，网络被设计成只有单一信息流通过的网络。为了提高精度，采用MFA 并行信息流网络，设计了多尺度特征聚合中心网（MFACN）。同时，为了进一步改进MFACN，设计了带有反馈架构的TFA 双向平行流网络，如图3 所示。使用ResNet 作为主干，提取不同层的特征；将ResNet 第2 层到第5层的输出作为TFA 的输入。在TFA 的设计中，首先最小化上下节点，通过最小化不同层之间的上节点聚合并以交叉三角形的形式连接，使计算代价最小化，提高检测精度。其次，通过将TFA 中最后一个中间层（、、）与每个阶段最后一个卷积层（、、）连接，增加下节点聚合（如图3 中给出的红色连接），以提高检测精度。此外，通过由下向上节点获得改进的检测器。当网络层较小时，使用下采样或上采样层（如池化或上采样层）是无效的。为了解决这个问题，使用一个为2 的卷积层作为下采样层，一个转置卷积层作为上采样层，有助于更好地理解不同大小的输出特征层之间的相关性。TFA 的计算公式如下：

图3 具有更高精确度和计算效率的TFA 网络结构Fig.3 TFA network structure diagram with higher accuracy and computational efficiency

TFA 简单而有效，允许更高分辨率的输出（步幅4）。同时，将TFA 的4 个转置卷积层的通道分别改为512、256、128 和64，上卷积滤波器使用均值为零的正态高斯分布初始化。

TFACN 与ROI-TFACN 的网络结构如图4 所示。由图4 可知，TFACN 检测器主要由ResNet18 骨干网络、TFA 跨尺度特征聚合模块和预测模块三部分组成。TFACN 和ROI-TFACN 框架皆包括3×3 卷积核、1×1 卷积核、Keypoint 热图预测头、回归预测头和尺寸预测头。ROI-CFACN 是TFACN 的轻量化版本，不同之处在于，聚合网络中TFA 层的通道深度分别为256、128、64 和32。2 种算法中的主干网络具有相同的层数和通道深度。由图4 可看到，对于每个框架，主干网络的特征都通过TFA 进行传递。

图4 TFACN 与ROI-TFACN 的网络结构图Fig.4 Network structure of TFACN and ROI-TFACN

2 基于卡尔曼滤波的行人多目标跟踪

2.1 行人目标位置预测

卡尔曼滤波预测目标位置分为预测和更新两个阶段。其中，预测阶段主要根据上一时刻行人的位置来预测行人在当前帧的位置；更新阶段主要根据当前帧检测到的行人位置来更新预测阶段的行人位置。

其中，X为上一时刻预测的当前时刻的行人位置，P为预测的当前状态误差协方差矩阵。

假设为观测矩阵，K为当前时刻的卡尔曼增益，为观测噪声协方差矩阵，X表示当前时刻的行人位置，Z为当前时刻行人位置的观测量，P为当前时刻估计误差协方差矩阵。更新阶段方程为：

2.2 基于残差信息的自适应卡尔曼滤波

卡尔曼滤波器在迭代更新时的残差为：

由上式可得残差的协方差矩阵为：

此时滤波增益可表示为：

为降低复杂交通环境对观测的干扰，需要通过计算n，从而调节K对行人进行准确跟踪。将观测受到的干扰反映到噪声上，由式（9）得：

其中，r是的比例因子矩阵。由式（11）可知：

在［0，］时刻，有：

由式（12）、（13）可知：

为使比例因子矩阵r的对角元素r≥1，定义该矩阵的第个对角元素为：

在线更新后的观测噪声为：

2.3 目标关联

匈牙利算法主要用作求解二分图的指派问题，并具有时间、空间复杂度较低等优点。本文采用匈牙利算法解决跟踪目标和检测目标的关联问题。

若存在某一检测目标无法与已有的任何跟踪目标相关联，则将其作为新的跟踪目标并添加对应的ID。在实际跟踪过程中，当计算的欧氏距离大于一定的阈值或连续帧没有对应的检测行人与当前跟踪集中的某个目标相匹配，则判断此跟踪目标消失。

3 实验验证

本文实验基于Python 编译环境和Pytorch 框架实现。硬件平台主要配置包括：Intel（R）Core（TM）i5-9400f CPU、16 G RAM、NVIDIA GeForce GTX 2080 GPU。本研究实验分为检测算法实验与跟踪算法实验。拟展开研究分述如下。

3.1 行人检测实验

本次实验选用Caltech 行人数据集进行模型训练和测试。训练时网络参数设置为：学习率从0.000 1至0.000 001递减，衰减系数为0.999 5。对算法进行48 000 次训练迭代，设置为16，并且对原数据进行数据增强，以提高模型的泛化性能。

为了评估本文算法的检测性能、检测速度以及先进性，采用精确率召回率（）曲线，以及均值平均精度（）和传输速率进行评价，并与其它通用目标检测算法进行对比实验。各检测器对比曲线如图5 所示。由图5 可知，本文提出的跨尺度特征聚合中心网络，相对于其它检测算法具有更高查全率和召回率。

图5 各检测器P-R 曲线图Fig.5 P-R curve of each detector

实验中不同检测算法在数据集上的测试结果见表1。由表1 可见，本文算法检测精度达到96.56%，优于其它算法，并以46 f／s 的检测速度达到了实时检测的要求。

表1 不同检测方法在Caltech 数据集上的检测结果对比Tab.1 Comparison of detection results of different detection methods on Caltech dataset

图6 为本文算法在测试集上的检测结果。其中，图6（a）为前方行人较多且遮挡率较高的交通路口场景；图6（b）是目标距离较远的城市道路场景，该场景下小目标行人较多。从效果图中可以看出，本文方法在多类别行人检测中，检测框与目标行人重合程度大，对小目标行人以及受遮挡行人具有较好的检测效果，误检、漏检和重复检测现象较少。

图6 行人多目标检测效果图Fig.6 Pedestrians multi-target detection results diagram

3.2 行人跟踪实验

为验证改进的卡尔曼滤波行人跟踪算法的有效性，采用多目标跟踪准确度（）和多目标跟踪精确度（）两个指标衡量算法的总体性能。在数据集上进行测试，并将其与粒子滤波、KCF、Sort 等代表性多目标跟踪算法进行比较。对比结果见表2。由表2 可知，本文算法在和两个指标上相比于其它算法均具有明显的提升。在测试集上的多目标行人跟踪准确度达到72.43%，跟踪精确度为84.26%，满足复杂道路场景下稳定跟踪的要求。

表2 多目标跟踪算法的MOTA 与MOTP 对比Tab.2 Comparison of MOTA and MOTP for multi-objective tracking algorithms

实际行人多目标跟踪效果如图7 所示。在城市道路上对多目标行人进行跟踪实验，跟踪目标在图像上较小且距离较远，视频中部分行人出现不同程度的遮挡，甚至消失。可以看到，本文算法的跟踪鲁棒性较好，无ID 跳变，无明显漏检、误检，在行人不断进入、消失的情况下，仍能够准确跟踪到远距离处小目标行人，且具有较好的抗遮挡性。图8 为本文算法以及Sort、KCF 和PF 等算法跟踪到的目标质心在图像中的像素误差，4 种方法得到的单帧平均像素误差分别为2.85、4.67、5.35、6.96。由此可见，本文算法在复杂交通环境下具有良好的性能。

图7 行人多目标跟踪效果图Fig.7 Pedestrians multi-target tracking results diagram

图8 各跟踪算法的目标质心误差对比Fig.8 Comparison of target centroid error of each tracking algorithm

4 结束语

本文针对传统的基于检测的目标跟踪算法对环境干扰适应能力差、漏检较多、且跟踪准确率不高的问题，提出了一种基于跨尺度特征聚合中心网络与自适应卡尔曼滤波相结合的行人多目标检测与跟踪方法。在原始的特征提取模块中加入特征聚合模块，有效地聚合具有语义鲁棒性的高层特征和具有精确定位信息的低层特征，生成一个更有效的特征图，提高识别检测精度。并结合自适应卡尔曼滤波算法，通过对受扰观测进行权重在线更新，从而对运动行人进行鲁棒跟踪。实验结果表明，本文提出的跨尺度特征聚合网络相对其它类似方法可以获得更好的性能，对行人多目标的跟踪，提出的算法在和两个指标上相较于其它方法有较好的提升，ID 跳变数得到了大幅改善，可以满足复杂道路场景下行人检测与跟踪应用的需求。