改进的多任务道路特征提取网络及权重优化

2024-01-15朱文杰李宏伟姜懿芮程相龙

测绘通报 2023年12期

朱文杰,李宏伟,姜懿芮,程相龙,赵珊

(1. 郑州大学计算机与人工智能学院,河南郑州 450001; 2. 郑州大学地球科学与技术学院,河南郑州 450052)

基于深度学习的人工智能技术的快速发展使得实现低成本的基于视觉的自动驾驶技术成为可能。自动驾驶技术的关键问题之一是如何构建一个高效的环境感知系统。目前的辅助自动驾驶技术多是基于高精度地图实现的,但是高精地图的生成往往需要借助多种传感器进行数据采集和大量的后处理工作。如果能采用成本低廉的视觉相机构建实时的环境感知系统,则可以大大减少高精地图生成所耗费的时间和费用,甚至可以通过车联网的方法达成对高精地图的更新,因此其具有更多的实际应用前景。此外,交通目标检测、车道线分割和可驾驶区域分割这3项技术提供的信息在车辆的驾驶决策中起着至关重要的作用[1]。

交通目标检测、车道线分割和可驾驶区域分割这3项任务在各自的单一领域得到了广泛的研究。在目标检测方面,出现了以RCNN[2]、Fast-RCNN[3]等为代表的一系列Two-stage目标检测算法,以及以YOLO系列[4-7]为代表的One-stage目标检测算法。其中,Two-stage方法的精确度较高,但是实时性较差;One-stage方法精度略低,但是具有高实时性,更符合现实生产生活的需要。在车道线分割与可驾驶区域分割方面,由于近年来卷积神经网络的大规模应用,传统的分割算法迅速地被取代。到目前已经出现了大量的高性能分割模型,如U-Net[8]中的encoder-decoder结构,以及特征金字塔 (feature pyramid network,FPN)[9]中使用的特征金字塔结构,使网络能够获得不同尺度的特征,大大提高了分割网络的精度。此外,RESA[10]方法、SCNN[11]方法和Lanenet[12]方法在车道线分割领域也显示出优异的效果。

在自动驾驶的应用场景中,往往需要多种任务同时工作来提供服务,考虑车载电脑的计算资源有限且有高实时性要求,为每个任务单独设置模型是不现实的。因此,需要一种可以将这些类似的任务耦合起来,并可以使用较少的资源且保持实时性的方法。多任务学习网络[13]为此类问题提供了有效的解决方案,可以实现相关任务之间共享特征提取网络,从而节省时间、空间和资源,已在NLP(natural language processing)及推荐算法领域证实了其有效性[14-16]。在计算机视觉领域,大量的模型采用Faster RCNN[17]的思想,使用ResNet[18]结构进行特征提取。这充分证明了其强大的特征提取能力可以满足多任务学习网络的需要, LSNet[19]、MultiNet[20]、YOLOP[21]和HyBrid-Net[22]均采用了以ResNet为基础的共享编码器,结果表明多任务学习网络可以在仅增加少量的时间和资源占用的情况下同时完成多种相关任务。

本文提出一种结合FPN网络的解码器头(Decoder Head)结构,并将其应用于以YOLOv4为主干网络的多任务道路特征提取网络中,该网络可以同时完成交通目标检测、车道线分割、可驾驶区域分割3项任务;此外,针对多任务学习网络的特点对该网络进行优化,以期为基于视觉的自动驾驶过程中车辆的自主道路感知及高精地图的生成提供新思路、新方法。

1 道路特征提取网络设计

本文使用的多任务学习道路特征提取网络核心包括: ①共享的特征提取模块的实现及协同工作,以完成交通目标检测、车道线分割和可驾驶区域分割任务; ②损失函数的计算方式,以及如何使用损失函数控制不同任务的权重。

2.4.3 悬尾实验连续注射CORT 21 d后，小鼠禁食不禁水24 h后，将动物尾巴靠近尾部部分固定在距离地面60 cm处，使其呈倒挂状态，动物之间留有一定距离，并视线彼此隔离，适应30 s后，记录动物3 min内四肢不动时间。

1.1 网络结构

已有研究如YOLOP、HybridNet中表明目前的主流特征提取网络如Darknet[6]等可以很好地完成特征提取任务。因此,本文保留了同类优秀算法中的核心设计理念。利用现行目标检测算法中较为优秀的特征提取网络部分作为主干网络(Backbone),但是目前此类算法中很少考虑分支任务的输出头(Head)设计。因此在YOLOv4网络的基础上为分支任务设计了一种结合FPN网络的解码器头结构,以便更好地利用主干网络提取的特征提高性能。详细的网络结构如图1所示。

图1 网络结构

1.1.1 主干网络

本文的主干网络部分与YOLOv4网络类似,将原始的RGB图像交替通过CBH与BottleneckCSP模块后进入颈部(Neck)部分。主干网络部分的结构如图2所示。

图2 主干网络结构

交通目标检测结果的可视化如图4所示。考虑同类算法往往只能检测车辆目标,因此仅考虑BDD100K数据集上的车辆目标检测结果。其结果见表2,本文选取Recall、mAP50作为评估的指标,性能结果表明本文方法已经达到了主流目标检测方法的精度。尽管在实时性上相比速度较快的YOLOv5s等方法仍有较大的差距,但是本文方法可以同时完成额外的可驾驶区域分割及车道线分割任务,且在速度方面也达到了实时性的要求。

综上所述，对脑血管疾病合并糖尿病患者而言，优质护理的实施具有重要意义，可帮助其平稳度过围术期，减少术后各类并发症，促进早日康复。

1.1.2 解码器头

本区后期构造对岩、矿体有错断位移现象，可以解释多个矿点深部矿化、蚀变突变问题。深部找矿需研究断层构造位移方向和距离，确认找矿位置。已知矿床均产于主拆离滑脱剥离复合构造铲形(犁式)断裂缓倾斜地段；主、次级滑脱剥离断层交汇带控矿规模大，主拆离滑脱剥离断裂带伴派生构造控矿；次级滑脱剥离断层虚脱部位或产状变化处控矿；滑脱剥离断裂带控制矿化富集规律等，研究这些对找矿预测有一定指导意义。

2.1.2 参数及试验设置

小儿化食口服液由山楂、六神曲、麦芽、槟榔、三棱、大黄、莪术、牵牛子组成，具有消食化滞、泻火通便的作用，前期药理学研究表明有促进大鼠胃排空，促进便秘小鼠的粪便排出及其止痛的作用［10］。杨亚红［11］用该药联合妈咪爱治疗64例2～6岁便秘患儿，总有效率达到96.9%。

2.1.1 数据集

图3 解码器头结构

在可驾驶区域分割方面,使用类似于车道线分割任务解码器头也可以提高精度。由于可驾驶区域的面积较大但是边缘区域并不规整,大部分算法在边缘区域的提取效果较差。而类似的设计可以有效改善在边缘区域的分割效果。但由于类似的网络在这项任务中的精度已经很高,因此提升的幅度有限,而且会导致每帧约0.003 s的推理时间损失。

1.2 损失函数

对于多任务学习网络,常见的损失函数设置方案是独立计算不同任务的损失,再进行加权平均。总损失Lall计算方法为

Lall=α1Ldet+α2Lda+α3Lll

(1)

式中,Lda为可驾驶区域分割任务的损失;Lll为车道线分割任务的损失, 这两部分均采用了传统的分割损失计算方法,即交叉熵损失函数LCE;Ldet为交通目标检测任务部分的损失,由3部分组成:分类损失Lclass、对象损失Lobj和边界损失Lbox。其计算也采用加权平均的方式,即

Ldet=β1Lclass+β2Lobj+β3Lbox

(2)

式中,Lclass和Lobj为焦点损失,用于判断分类是否良好;Lbox用于衡量生成的预测框与实际值之间的相似性,采用LIoU(交并比)的计算方法。

将这些损失加权求和得到最终的总损失。式(1)-式(2)中的α1、α2、α3、β1、β2、β3为对应部分损失的权值。在多任务学习网络中,不同任务之间的权重设置往往由损失函数的权值控制,因此不同任务的损失权重对网络中不同任务的精度影响很大,而在类似的算法(如YOLOP、HybridNet)中,并没有考虑权重设置对最终网络精度的影响。因此,本文分析了权重设置对网络精度的影响,并通过比较不同的配置方案优化权重配置,以得到效果较好的配置方案。

2 道路特征提取网络试验

2.1 试验设置

在车道线分割任务的设计方面,考虑车道线的细长且分散的特性,其往往跨越多个卷积块,并且在较大的卷积块中不能提取出足够的特征,这会造成语义信息在特征提取过程中的消失。因此,本文采用FPN的思想,在进行上采样之前,将主干网络中前两层的浅层低级语义信息与1.1.1节得到的结果相结合,以便解码器头能够更好地识别在卷积过程中消失的小尺度语义信息。解码器头设计如图3所示。

在数据集方面,本文采用BDD100K数据集。BDD100K数据集是近年来较为全面的面向自动驾驶领域的数据集之一,包含10万帧的图片及10个与自动驾驶方向相关的任务标注信息,便于开展多任务学习网络的研究。此外,由于该数据集数据量庞大,因此具有地理、时间及天气方面的多样性,这使得本文在该数据集中训练的网络具有很强的泛化性;而且选用该数据集便于与同类方法进行性能对比。在数据集的划分方面,本文抽取了10万帧图片数据中的7万帧作为训练集,2万帧作为验证集,剩下的1万帧数据作为测试集。

请10名具有一定品评经验的人员组成品评小组，根据评分标准（见表2）从色泽、风味、组织和口感4个方面对紫薯酥性饼干进行感官评定，取10名评判分数的平均值作为各项指标的评分，以感官评分的高低来判定产品的优良。

目标管理是进行任何一项管理工作的基本方法和手段，成本控制也应遵循这一原则，即目标设定、分解、责任到位和成本执行结果、评价和目标修正，从而形成目标管理的计划、实施、检查、处理的循环.在实施目标管理过程中，目标的设定应切合实际，更落实到各部门、班组甚至个人；目标责任应全面，既有工作责任，更有成本责任[3].

在交通目标检测任务头方面,保留了YOLOv4中的设计方案,采用基于锚点的多尺度检测方案。将自下而上的特征聚合网络与FPN相结合,然后分配给不同尺度的锚点进行目标检测。

在参数设置方面,本文采用Adam优化器进行模型训练,并使用预热和退火算法调整学习率,从而保证模型能够更好地收敛。这确保了可以在相同的条件下研究多任务权重设置对多任务学习网络最终精度的影响。

在试验方面,在选取现存的同类多任务学习方法进行性能对比的同时也选取了部分专注于单一任务的优秀方法,这些方法均在BDD100K数据集上取得了优异的性能,如YOLOv4与Faster-RCNN分别是One-Stage与Two-Stage目标检测算法的代表。PSP-Net[25]则是语义分割领域的代表性方法。由于应用在BDD100K数据集上的车道线分割方法并不是很多,因此本文采用了在其他数据集中优秀的方法进行性能对比。本文方法均在最佳权重设置的条件下进行试验,其中具体的硬件信息及设置见表1。

采用循环烟气焙烧的方法，可以提高钼铼的收率，也提高产品质量，还可以获得高浓度的SO2烟气直接送去制硫酸，这是可以解释清楚的。例如这一炉辉钼矿需要5次循环烟气焙烧才能完成，那么前4次获得的SO2烟气都是高浓度的，只有最后一次才是低浓度的SO2烟气，这5次烟气混合起来肯定可以用于制硫酸。如果是2～3台以上的焙烧炉，错开作业，通过混合罐调节，就可以连续用于制硫酸。所以采用循环烟气焙烧钼精矿，是提高产品质量、提高钼铼回收率约100%、还可以用自己的焙烧烟气制硫酸的很好方案。

在车道线分割和通过区域分割方面,试验发现在YOLOP方法中仅使用从颈部最后一层提取的特征时,网络的精度较低。因此,本文根据这两项任务的特点为其设计解码器头。

表1 试验设置

2.2 试验结果

2.2.1 交通目标检测结果

在颈部(Neck)部分,使用SPP[24]模块与FPN模块融合主干网络提取的特征。其中,SPP模块用于融合不同尺度的特征,FPN模块用于融合不同层次语义信息的特征。融合后得到的特征将进一步在解码器输出头进行处理。

表2 交通目标检测结果

图4 交通目标检测结果

2.2.2 可驾驶区域分割结果

以高分四号卫星影像和HJ-1B卫星影像重叠区作为实验验证区，采用分层随机采样的方式，随机选择512个验证点，基于临近时期高分一号卫星影像和图像间对比解译分析，逐点确定积雪覆盖情况，计算积雪识别精度、Kappa系数等统计值，对积雪覆盖精度进行统计，结果如表2.基于多时相高分四号卫星图像积雪提取结果的Kappa系数达到0.84，表明该方法生产的积雪覆盖产品与真值基准数据间具有很强的一致性、精度高.

可驾驶区域分割结果的可视化如图5所示。在此类任务中,只需要将可供车辆行驶的区域从背景中分割出来(即道路部分)即可,采用mIoU作为评价指标,具体评估指标数据见表3。从结果可以看出,本文方法的精度要高于同类方法,已经达到了PSPNet方法的水平;并且在速度上也高于同类方法,满足了实时性的要求。从结果推断可以发现,本文的网络结构得到的结果在边缘部分更加平滑,且减少了在对向车道中产生的结果,使得本文方法在测试集上拥有更高的精度。

在世界屋脊采集种子的艰苦，非亲历难以想象。每一种植物的样本数量要达到5000粒，濒危物种样本一般需要500粒。为了保证植物遗传信息独立，每个样本之间的距离不能少于50公里，同时在整个西藏境内，任何一个物种的样本不能超过5个群体……于是，在广袤的高原上，有时一天奔波800公里，他的足迹遍布西藏最偏远、最艰苦、最荒芜的地区。峭壁上蜿蜒的盘山路，曾有巨石滚落砸中他所乘的车；没有水，就不洗脸；没有旅店，就裹着大衣睡在车上……早上五六点出发，晚上八九点钟到达宿营点，之后还需要连续几个小时整理标本，一天睡3个小时是常态。

表3 可驾驶区域分割结果

图5 可驾驶区域分割结果

2.2.3 车道线分割结果

车道线分割结果的可视化如图6所示。本文采用精确度(Accuracy)、Lane IoU作为评价指标,具体的结果见表4。从结果可以发现本文方法的性能较对比方法有显著提升,减少了车道线检测过程中同一条车道线中断的现象。相比于作为Baseline的YOLOP方法,本文方法在车道线分割任务中精确度提升了8.2%,尽管本文方法中增加的结构相比于Baseline增加了额外的推理时间,但是其仍旧可以满足实时性的需要。

表4 车道线分割结果

图6 车道线分割结果

2.3 消融试验

本节通过对比单任务方案与多任务方案来验证多任务方案的有效性。

分别使用该网络执行单一任务与多任务方案,得到的性能数据见表5。从性能数据可以发现,执行多任务模型可以达到甚至超过执行单一任务时的精度,并且可以节省大量的时间。出现这一情况是因为在训练过程中,目标检测任务的损失函数下降较快,可以快速收敛;且由于采用了共享编码器的思路,在目标检测任务收敛后,对于收敛较慢的另外两个任务,整个网络处于一种预训练的状态下,在此基础上进行剩余的训练则可以达到提升精度的效果。

表5 多任务与单任务

其中消融试验的评估指标与相关设置均与上述内容中的设置一致。

3 多任务权重平衡研究

一般而言,多任务学习中不同任务之间的平衡是通过控制损失函数的权重实现的,不同的权重设置,也会对网络的最终精度造成影响。本文将采用同样的方法来研究权重对多任务学习网络的影响,从而得到最佳的权重配置方案。

3.1 权重对不同任务的影响

通过随机设定的方案探讨权重影响的总体趋势,其中初始的任务权重设置见表6中方案1,之后按一定的比例设置了额外的几种方案,其具体设置见表6方案2-方案5。

表6 权重方案及结果

经过相同的训练后,得到不同方案的结果。分析结果可知,不同任务受权重的影响不同。其中,道路目标检测任务对权重的改变影响最小,即使设置较小的权重也不会对其精度造成影响;对于可行驶区域分割任务而言,其受权重的影响适中,在权重增加时,该任务的精度也在上升,当权重过大时便不再提升;车道线分割任务对权重设置最为敏感,当权重改变时,其精度就会随之产生比较大的变化。

由于本问题的解构建图基于成本矩阵构建，每个元素均为一个节点，故将信息素τij置于每个节点上，代表第i个车组担任第j个车次的期望程度。在初始时刻设 τij(0)=K(K为常数)。

3.2 最佳权重设置

针对表6试验所得数据,进行进一步优化调整,得到了最佳的权重及对应结果(见表7)。结果表明,本文方法可以通过该方式进行优化,从而使网络拥有更好的性能。

表7 最佳权重结果

为了验证本文权重设置方案的有效性,在同类的算法中应用了类似的权重设置方案,以此验证权重设置的有效性。在保持其他设置相同的情况下,将同样的权重方案应用在YOLOP的模型中,得到的结果见表7。从性能数据可知,本文的权重设置方案具有一定的迁移性,可以在类似的多任务网络模型中采取相同的优化方案。

4 结语

本文设计了一种结合FPN网络的解码器头结构,并将其应用于多任务学习道路特征提取网络。该结构在保证模型实时性的基础上有效提升了分支任务中可驾驶区域分割任务及车道线分割任务的精度。此外,也对多任务学习网络的任务权重配置进行了分析,通过分析不同任务对权重的敏感程度得到最佳的权重配置方案,降低多任务之间的影响,进一步提高了精度。考虑本文主干网络的特点,未来可以在此基础上拓展更多的分支任务,进一步提高方法的灵活性;并且将多任务学习网络与高精度的语义分割及检测任务相结合,为未来高精度地图的实时生成提供新思路与新方法。