基于多层时空融合网络的驾驶人注意力预测*

2023-05-29金立生纪丙东郭柏苍

汽车工程 2023年5期

金立生，纪丙东，郭柏苍

（燕山大学车辆与能源学院，秦皇岛 066004）

前言

人类视觉系统能够快速搜索视野中的感兴趣区域和目标，而不会被环境中的混乱对象干扰；熟练的驾驶人可以快速识别交通场景中的各类要素及其运动状态，从而及时辨识直接或潜在的驾驶风险信息。驾驶人注意力的分布情况会影响车辆行驶安全性和稳定性，例如分心驾驶行为引发交通事故的几率远高于专注驾驶状态［1］。因此，以人的视觉特性为研究重点，深入挖掘行车场景中驾驶人注意力的变化规律，对增强驾驶辅助系统能效、提高智能化类人驾驶系统水平有重要作用［2-3］。

近年来已有学者专注于人类注意力机制的相关研究，从探究影响人类在场景中的注意行为的视觉搜索理论［4］，到通过特征提取计算人类在场景中的注视点的显著性预测［5］（saliency prediction），其研究的注视行为主要为自由观看场景（无任务状态）。然而，驾驶人需要关注道路场景中的诸多信息，使驾驶过程具有高度的任务导向性，且由于交通环境的复杂多变以及驾驶风格［6］、剩余注意力［7］、潜在注意力［8］、疲劳［9］与分心［10］等驾驶状态对驾驶人视觉特性［11］的影响，使注意力预测仍是一项极具挑战性的任务。

与静态场景中的显著性预测不同，驾驶场景聚焦于如何利用视频流中的时空特性实现动态场景中的显著性预测（即驾驶人注意力预测）。为此，近年来涌现了多个大规模驾驶人注意力视频数据集，为基于数据驱动的注意力预测模型提供了较为充分的研究保障。Alletto 等［12］使用眼动仪采集了驾驶人在实车驾驶时的注视数据，并发布了首个大规模的驾驶人注意力数据集DR（eye）VE。Palazzi 等［13-14］继续完善了该项目，并提出基于3D 卷积的包含RGB 图像、光流和语义图像的多分支驾驶人注意力预测模型，但旁路的光流、语义分支明显增加了网络的复杂性和计算量。

为避免实车驾驶数据集中不同驾驶人出现的个人偏差，研究人员在实验室中利用驾驶视频重复测量不同驾驶人观看时的注意行为并进行平均处理，使每个视频帧上都包含有多个驾驶人的注视行为，有效去除了个体偏差。基于BDD100K［15］数据集，Xia 等［16］提取了包括制动事件和发生在繁忙地区的视频片段，通过平均处理驾驶人注视点，制作了关键驾驶情况下的注意力数据集BDD-A，然后利用2D卷积提取当前帧的空间特征，建立了基于LSTM（long short-term memory networks）的注意力预测模型。然而，这种仅使用LSTM 在帧间传递特征的方式，难以捕捉连续帧间更深层的时空耦合特征。

聚焦驾驶人注意力相关的数据集，由于DR（eye）VE 和BDD-A 仅提供了驾驶人注视点注释中连续的显著性图（saliency map），未提供注释信息中的注视图（fixation map），使其应用范围受限。针对此问题，Deng 等［17］发布了TDV（traffic driving videos）数据集，并提出基于纯2D卷积神经网络的驾驶人注意力预测网络CDNN（convolutional-deconvolutional neural network），虽然该网络足够轻量，但未充分利用场景中的时间特征。Fang等［18］延续并拓展了关键驾驶情况，建立了多种交通环境驾驶事故的驾驶人注视点数据，并发布了DADA-2000 数据集。此外，Fang等［19］还在后续的研究中设计了基于双流网络的RGB 图像与语义图像的融合网络，以此识别驾驶人的感兴趣区域，且使用3D卷积作为特征提取骨干捕获了深层时空耦合特征，但旁路的语义分支和3D骨干大幅增加了网络的体积。Li 等［20］通过2D 特征提取模块和短时特征提取模块分别获得输入特征的空间和运动信息，解码预测驾驶人的显著注意图，并最后传输至目标显著性评估分支，建立驾驶人注意力显著性预测和目标显著性评估联合网络，但该网络仅考虑了相邻两帧间的短暂运动信息，未能有效利用更长时间范围的场景信息。由于3D 卷积能够同时提取多帧间的时空耦合特征，Chang 等［21］使用3D卷积网络搭建了特征金字塔并进行解码，但此类全3D 卷积网络加剧了内存的成本和优化的难度。Wang 等［22］和Bellitto 等［23］仅在编码器的特征提取骨干网络中使用了3D 卷积，然后使用层次化的2D 卷积或注意力机制等解码器进行解码，然而3D 骨干网络的参数量同样难以满足网络整体轻量化的需求。

在现有研究的基础上，本文中重点针对模型轻量化研究存在的不足，通过简洁、高效的结构设计，构建基于2D-3D 混合卷积的多层时空融合网络，提出驾驶人注意力轻量化预测模型。模型采用层次化的编码器-解码器架构，使用记忆模块储存和迭代轻量化2D卷积骨干提取的多层次特征，避免上下帧特征的重复提取；在解码器中使用轻量化3D卷积模块进行时空特征融合，并逐步解码以预测动态驾驶场景的显著性区域和目标；使用轻量化骨干，设计轻量化时空融合层并放置在高层抽象特征层，得到兼顾速度和精度的驾驶人注意力预测模型。

1 驾驶人注意力预测模型设计

1.1 模型整体结构

为建立轻量化的驾驶视角驾驶人注意力预测模型，对模型网络结构进行合理设计，通过在多个特征尺度上的编码与解码，充分利用当前帧与历史帧间的时间、空间和尺度信息，形成采用四分支并行整体网络的架构，如图1所示。

图1 模型整体结构

在编码器中，首先使用特征提取骨干网络在4个不同尺度的特征层上提取当前帧的空间特征，然后并行输入至记忆模块，与在历史帧上提取的特征在通道上进行拼接聚合并输出至解码器模块。在解码器中，模块分为4 个并行分支，各分支中经过一系列的时空卷积与上采样，融合连续帧间的空间特征以捕获深层的时空耦合特征，预测生成显著性概率图，融合所有分支的结果以生成最后的显著图，得到驾驶人注意力预测结果。

考虑本方法采用了层次化设计，易出现单一监督层无法兼顾独立的多分支特征学习问题。为此，在训练过程中选择多层联合监督，使每个独立的分支层级都能在训练过程中充分地学习到监督特征。

1.2 编码器模块

编码器模块分为特征提取骨干和记忆模块两部分。其中，特征提取骨干采用轻量化网络MobileNetV2［24］的全卷积层。为充分利用驾驶场景中的尺度信息，输出当前帧It∈RH×W×3选择从Level-1 到 Level-4 的 4 个层级的特征作为骨干网络的输出。

记忆模块包含存储和迭代两个功能，并分别在网络运行的两个阶段发挥作用。第一阶段，记忆模块在时间维度上拼接聚合当前帧It编码后的特征和存储的历史帧Vt={It-T+1，…，It-1}中的特征，得到时间长度为T的特征张量后传输给解码器。第二阶段，在当前帧It时刻模型执行完毕后，记忆模块去除It-T+1时刻的特征，保留It时刻的特征，依次迭代更新，使在执行下一时刻计算前记忆模块中仅包含时间长度为T-1 的特征张量，并最后作用于It+1时刻。模型通过在上下帧之间传递骨干网络提取的空间特征的设计能避免视频类算法重复提取上下帧特征的弊端，有效减少网络计算量，提升运算速度。

1.3 解码器模块

虽然编码器已在时间维度将连续帧的空间特征进行拼接聚合，但不同帧间特征仍然相互独立。因此，为学习和捕获连续帧间深层的时空耦合特征，本文基于3D卷积设计了一个轻量、有效的时空融合解码器。如图1 所示，解码器模块为并行多分支结构，每个分支又可分为时空融合层和预测层。时空融合层由3 种卷积层级联组成，其中3D 下采样层使用了卷积核尺寸（kernel size）为3 × 1 × 1、步长（stride）为2 × 1 × 1、填充（padding）为2 × 1 × 1 的3D 卷积。由式（1）可知，3D 下采样层能够使输入的时空特征仅在时间维度下采样至原来的0.5 倍，而高度和宽度保持不变。

式中：M为输入特征尺寸；N为输出特征尺寸；K为卷积核尺寸；P为填充尺寸；S为步长；i代表特征的维度，即3D卷积所处理的时间维T、高度维H和宽度维W。

为平衡网络计算量和拟合能力，本文受ConvNeXts［25］的启发设计了基于逆瓶颈结构的3D block。逆瓶颈卷积块在ConvNeXts 中得到了大量应用，但其仅适用于2D 图像的特征提取，无法处理视频序列。因此，本文借鉴了其将大内核卷积运算和通道深度卷积运算分离的思想，基于3D 卷积提出逆瓶颈3D block，并根据解码器架构做进一步的参数适用性设计，以适应视频图像处理和时空特征融合。如图2所示，3D block包含3个卷积层，第1层采用卷积核大小为7 × 7 × 7 的3D 可分离卷积［26］（3D separable convolution），用以增大感受野的窗口大小；第2 层为扩大通道宽度的1 × 1 × 1 卷积，膨胀比设置为2；第3层为在时空融合过程中逐步缩减通道宽度的1 × 1 × 1卷积。

图2 3D block的总体结构

3D 可分离卷积的总体结构如图2 中虚线框所示，其利用卷积核尺寸将3D卷积拆成空间卷积和时间卷积串联运算，同标准3D卷积相比可以减少计算量和优化难度。同时，逆瓶颈结构的设计用以抵消大卷积核带来的计算量，且通过后续对网络宽度的扩张补偿网络的容量损失。最后，时空融合层的最后一层为在每一个3D block 后都串联的trilinear 三线性上采样层，用以将特征图的尺寸扩大2 倍，但时间维长度保持不变。

由于每一个分支的时空特征流在经历完整的时空融合层后，该层特征时间维度已被融合至一维，因此本文均使用带有Sigmoid激活函数的2D 卷积作为预测层。Sigmoid函数如式（2）所示，其输出范围为（0，1），使预测层可将每一层的时空融合特征映射为概率分布进行输出，得到每个特征层级的显著性概率图，然后将其在通道上拼接并最终融合生成预测的显著性图，即驾驶人的注意力预测结果。因此，编码器模块通过在多个特征层级上进行独立的时空特征融合与最后的融合预测，能够充分利用动态驾驶场景的时间、空间和尺度信息。

此外，本文在时空融合层的每一层卷积后都加入了批正则化（batch normalization）和GELU激活函数，用以增加网络的非线性和寻优能力。GELU函数如式（3）所示，其在激活函数中引入了随机正则的思想能够在模型训练过程中引入随机性，使训练过程的鲁棒性更佳。

1.4 联合监督模块

基于分层监督思想设计联合监督模块，选择在视频显著性预测领域得到广泛应用的KL 散度（kullback-leibler divergence）损失作为具体每层监督的损失函数。联合监督模块中使用的组合损失函数L 的计算方法见式（4），其中m表示图1 中的监督层Sup0、Sup1、Sup2、Sup3 和Sup4，具体为每个解码器分支的显著性概率图输出以及最终融合生成的显著性图。ℓKL为KL散度，计算方法为

式中：G∈[0，1]为驾驶人注意力的真实标签；S∈[0，1]为模型预测出的显著性值；i为每一点的像素值。

2 实验与分析

2.1 实验数据与评价指标

为全面测试所提出的驾驶人注意力预测方法，分别选择基于事故场景和正常驾驶场景的数据集DADA-2000［18］和TDV［17］，其中包含的主要场景如图3 所示，左起前3 列选自DADA-2000，最右列选自TDV，基本覆盖了所有典型驾驶场景。

图3 DADA-2000与TDV数据集主要场景

DADA-2000（driver attention prediction in driving accident scenarios）是一个大规模的驾驶事故场景中的驾驶人注意力预测数据集，包含2 000个视频，目前已经公开1 018 个视频，分别为598 个视频（约241 k 帧）用以训练、198 个视频（约64 k 帧）用以验证和222 个视频（约70 k 帧）用以测试。注视来源于20 位有经验的驾驶人的眼动追踪数据，每个视频中都至少记录了5名驾驶人的眼动数据。

TDV 包含16 个交通驾驶视频，每个视频的时长为52～181 s 不等。在训练阶段共有49 k 帧，验证阶段有6.6 k 帧，测试阶段有19 k 帧，其注视来源于28位有经验的驾驶人的眼动追踪数据，且每个视频都被所有的驾驶人观看。

使用MobileNetV2［24］的预训练模型初始化特征提取骨干参数，选择ADAM 优化器，初始学习率为0.001，权重衰减为2×10-7，学习率每隔5 个epoch 下降0.5 倍。使用re-fine 操作，特征提取骨干学习率设为其他模块的0.1。模型时间长度T设置为16帧，每帧图像首先缩放为256 × 256，然后经标准化、随机镜像和随机裁剪至尺寸为224 × 224 后输入网络。此外，由于显存的限制，批次设置为10，但本文选择累积20 个批次的梯度后再更新一次模型参数，以变相扩大批次值。模型训练和测试所使用的计算平台均为配备了NVIDIA RTX5000 GPU 的Ubuntu 18.04台式计算机。

显著性预测常用衡量算法性能的评价指标［27］：Area under the Curve by Judd（AUC-J），Shuffled-AUC（s-AUC），AUC-Borji（AUC-B），the Normalized Scanpath Saliency（NSS），Kullback-Leibler Divergence（KL），Similarity（SIM）和Linear Correlation Coefficient（CC）被用来定量评估对比本文提出的模型与当前最先进的SOTA（state-of-the-art）模型的精度。这些指标可以分为两类：基于位置的方法包括AUC-J、AUC-S、AUC-B和NSS，使用二值的注视图作为真实标签；基于分布的方法包括KL、SIM 和CC，使用连续的显著图作为真实标签。其中注视图是离散的，记录了图像上每一个像素是否接收到人类的注视，使用高斯核模糊每个注视点后即可得到连续的显著图。

2.2 实验结果分析

为验证所提出算法的有效性，在DADA-2000和TDV 数据集上同当前具有代表性的12 个注意模型进行定量对比，包括有ITTI［28］，SALICON［29］，GBVS［30］，HFT［31］，CDNN［17］，MLNet［32］，Two-Stream［33］，BDD-A［16］，DR（eye）VE［14］，ACLNet［5］，SCAFNet［19］和ASIAF-Net［20］。其中，前6 个模型均基于空间特征，后6个模型利用了动态驾驶场景的时空特征。

在DADA-2000 数据集上的测试结果如表1 所示，其中加粗的数据表示对应指标的最佳性能。本文提出的模型在KL、CC、AUC-J 和s-AUC 4 个指标上优于所有对比的模型，在NSS 和SIM 两个指标上为次优。同时，相比仅在基于分布的评价指标SIM和CC 上获得最优的SCAFNet，以及仅在基于位置的评价指标NSS 和AUC-J 的ASIAF-Net，本研究的模型分别在这两类评价指标中的KL、CC、AUC-J 和s-AUC 上都获得了最优。由此证明，所提出的算法不仅在性能上优于最先进的同类模型，还实现了更高的鲁棒性。

表1 本文模型与其他模型在DADA-2000数据集上的结果对比

表2中几乎所有的模型都在TDV 数据集上取得了更好表现，这是因为TDV 的驾驶场景最为单一，且每帧上拥有最多的驾驶人注视点（28 人），复杂度和挑战性均低于DADA-2000数据集，使该数据集更易于学习拟合。相对于其它所有对比算法，本文建立的模型在AUC-B 上获得了最优，在KL、CC 和SIM上获得了次优。尽管在TDV 数据集上并未在所有指标上实现最优性能，但与驾驶人注意力预测研究中SOTA模型ASIAF-Net和SCAFNet相比，本文模型依旧在AUC-J 和AUC-B 两个基于位置的指标上对ASIAF-Net 实现超越；在SIM、CC 和KL 3 个基于分布的指标上对SCAFNet 实现超越；表明本文模型不仅足以和当前最先进的方法相媲美，且更具有鲁棒性。

表2 本文模型与其他模型在TDV数据集上的结果对比

综合对比DADA-2000 和TDV 数据集上的实验结果，提出的模型在场景复杂度更高、挑战性更大的DADA-2000 数据集上取得最佳表现，说明本模型能够对驾驶人注意力做出准确预测，识别动态驾驶场景中的显著区域和潜在风险。此外，相比与当前的SOTA 模型，SCAFNet 模型中的旁路语义分支和3D骨干均大幅增加了网络的体积和复杂度；ASIAFNet 模型仅考虑了相邻两帧间的运动特征且在编码器中对上下帧特征进行了重复提取；本模型通过行之有效的结构优化设计，解决了以上模型存在的不足，在实现模型轻量化的同时保证了其具有足够高的预测精度。

在类人驾驶系统中，驾驶人注意力预测算法的模型尺寸和运行时间是必须考虑的重要指标。在表3 中，本文与部分公开模型就模型尺寸和运行时间进行对比。为保障数据可信性，其中SALICON、Two-Stream、ITTI、GBVS 和ACLNet 的数据来源于视频显著性排行榜（https：//mmcheng.net/videosal/），DR（eye）VE 的数据来源于原论文。ASIAF-Net 虽未公开相关模型信息，但该模型在网络编码器中采用了两个ResNet50［34］作为双流骨干网络，而单个ResNet50 尺寸就已达102.5 MB。从表3 中模型尺寸和运行时间的对比可以看出，本文所提出的多层时空融合方法不仅在模型尺寸上实现了大幅优化，且能保证运行速度足够快，充分满足实时性需求。

表3 本文模型与其他模型的模型尺寸和推理时间结果对比

为更好证明所提出注意力预测模型在真实交通环境中的有效性，将本文模型与其他代表性方法ITTI、CDNN、BDD-A 在DADA-2000 数据集上进行定性对比，共选取8 个代表性的场景，结果如图4 所示。图4（a）中对于突然冲出的行人，本模型能准确关注到该行人；得益于充分利用时间上下文信息，模型能够在图4（b）的后续帧中预测注视点落在行人的未来轨迹上，表明在时空信息的帮助下，模型捕捉到了驾驶人的意图。对于住宅区道路图4（c）、二轮车事故场景图4（d）、十字路口图4（e）、乡村道路图4（f）、雨天场景图4（g）和典型的二轮车、汽车碰撞场景图4（h），相比于对比模型，本模型均能够更精准地定位到驾驶人的关注区域和感兴趣目标，且能够在一定程度上反映出驾驶人的驾驶意图。

图4 DADA-2000数据集的部分场景中本文模型与其他模型的驾驶人注意力预测对比结果

2.3 消融实验与分析

由于本文使用3D 卷积提取动态场景中的时空耦合特征，但限于3D 卷积只能处理固定长度的时空序列的特性。因此，在消融实验中证明了设置不同时间长度时的模型性能。实验结果如表4 所示，当设置时间长度T=16 帧时，模型取得相对最佳性能；同时，相对于短时序列，过长的时间序列（如T=32 帧，约1.28 s）降低了性能，说明其引入了较多与预测无关的特征。综上所述，表4 的实验结果证明了驾驶场景具有很快的特征更新速度，且一个小的时间窗口（例如T=16 帧，约0.6 s）就包含足够的上下文信息来预测驾驶人在该时刻的注视位置，这与Palazzi等［14］的结论相近。

表4 设置不同时间长度的本文模型在DADA-2000数据集上的结果对比

为验证所采用的多层次特征策略的有效性，在表5 中对比了不同监督层级的显著性预测值与真实标签的差距。实验发现，更深层的特征层级取得了更好的性能表现，说明通过增加网络深度能加强网络的学习能力。但任何一个单独层级都无法在该数据集上获得最佳的结果，而本文利用融合层融合了其他4 个特征层级的Sup0，在5 个指标上都超越了被融合层级。结果表明，每一个特征层都学习到了其他特征层所不具备的尺度信息，而本文采用的多层次特征学习与融合能够充分利用场景中的尺度信息，捕获不同尺寸大小的刺激因素。

表5 本文模型的不同监督层级在DADA-2000数据集上的结果对比

在编码器中为扩大卷积层的感受野和非线性激活能力，使用7 × 7 × 7 卷积和GELU函数作为基本卷积运算。为验证该方法的有效性，使用3 × 3 × 3卷积和RELU激活函数作为基线并逐步恢复7 × 7 ×7 卷积和GELU激活函数。在DADA-2000 数据集上的实验结果如表6 所示。更大的卷积核在AUC-B指标上得到了最高分值，但同时使用7 × 7 × 7 卷积和GELU激活函数使本文模型获得了相对最佳的表现，证明了网络设计的有效性。