自动驾驶的单目视觉目标检测与分割技术综述

2023-10-07姜孝戚湧闫贺

现代交通与冶金材料 2023年5期

姜孝，戚湧，闫贺

（1.南京理工大学计算机科学与工程学院，江苏南京 210094； 2.南京理工大学知识产权学院，江苏南京 210094）

引言

自动驾驶技术在车联网和人工智能技术的支持下，能够协调出行路线与规划时间，提高出行效率，辅助城市交通管理，并在一定程度上帮助驾驶员避免醉驾、疲劳驾驶等安全隐患，提升交通安全性，已成为各国近年的研发重点。

自动驾驶的发展路径主要有单车智能、车路协同、联网云控等［1］。车路协同采用先进的无线通讯与新一代互联网技术，充分实现人车路的有效协同，形成安全、高效和环保的道路交通系统［2］。联网云控配备智能感知系统、智能决策控制系统和智能执行系统，与通信网络、人工智能紧密结合，实现车辆与多领域（车辆、道路、行人、云等）间的信息交互［3］。单车智能通过传感器实时感知到车辆及周边环境的情况，再通过智能系统做出规划决策，最终通过控制系统执行驾驶。从单车智能到车路协同再到联网云控，信息交互对象更加多样复杂，识别与感知视野更加广阔，场景适应性更高，是将来发展的重要方向［4］。

本文主要对智能单车感知技术进行总结，第1部分介绍了感知技术的基础知识，包括常用传感器原理、自动驾驶数据集。第2部分介绍了传统方法、基于卷积神经网络（Convolutional Neural Network，CNN）和基于Transformer的2D目标检测算法，按原理不同对3D目标检测算法进行归纳分类。第3部分介绍了基于CNN和基于Transformer的语义分割技术发展。第4部分总结目前感知技术遇到的挑战，并给出有前景的研究方向。

1 感知技术概览

环境感知是通过传感器感知环境，包括车辆、行人、障碍物和车道线等环境信息，是自动驾驶技术基础核心功能之一，目前普遍使用的传感器主要有相机、激光雷达、毫米波雷达［5］等，它们的差异如表1所示。

表1 传感器分类Tab.1 Sensor classification

基于相机的感知方法相比于激光雷达精确度较低，但更廉价便捷，随着人工智能深度学习的发展，已成为当下自动驾驶感知技术的重要方案。相机感知算法的局限主要有对大规模图像数据的依赖性、技术成长周期较长、检测距离较短、易受光照影响等。

感知算法作为自动驾驶软件的核心算法，其主要任务是目标检测和语义分割，最终得到三维空间全景分割结果。前者通过目标检测获得周边场景中目标信息，主要包括位置、大小、形状和速度等稀疏信息；后者则是获得场景中每一位置的语义信息，主要包括障碍物、可行驶道路等稠密信息。视觉任务常用的数据集如表2所示。

表2 自动驾驶常用数据集Tab.2 Common datasets for automated driving

2 目标检测

2.1 2D目标检测

2D目标检测主要有传统目标检测算法和深度学习算法，鉴于近年Transformer在视觉任务上表现十分优异，本节分别从传统方法、CNN和Transformer三方面对目标检测任务进行总结。

2.1.1 传统2D目标检测

传统目标检测算法首先利用滑动窗口或者选择性搜索等方法对输入图像进行处理获取候选框；然后对每个候选框提取特征，判断是否为目标，若判定为目标则同时记录其位置坐标；接着利用分类器对目标进行分类；最后对分类结果进行后处理操作，例如非极大值抑制（Non-Maximum Suppression，NMS）去除掉多余的候选框，得到最佳的物体检测位置。

传统目标检测主要有基于特征和基于分割两种方式［15］。基于特征的目标检测算法主要通过找到目标的属性（人工设计或算法提取）来实现检测，特征主要包括Harr［16］、HOG［17］、灰度值、SIFT［18］和SURF［19］等；基于分割的算法则主要通过区域、颜色及边缘等特性以实现检测，方法有OUST［20］、分水岭算法［21］、Canny算法［22］、Sobel算法和LOG算法［23］。

2.1.2 基于CNN

传统算法虽然能够提取到丰富准确的特征并进行快速计算与预测，但这些算法只适用于有明显特征、背景简单的情形，在实际驾驶环境中，背景复杂且目标多样，很难通过传统方法达到实际检测要求。

卷积神经网络是一种经典深度神经网络（Deep Neural Network， DNN），受益于自身的平移不变性和局部敏感性，通过卷积层、池化层和全连接层等组件来充分提取图像特征，从而实现对图像分类、识别和分割等任务。自2012年AlexNet［24］卷积神经网络在图像识别挑战中一举夺冠以来，基于深度学习的目标检测技术得到快速发展并涌现出大量优异算法。目前主流的目标检测算法有基于卷积神经网络和基于Transformer［25］两类模型，按原理不同分为单阶段法和两阶段法。单阶段法通过神经网络直接完成区域和分类结果的输出；两阶段法则先生成目标的区域建议框［26］，然后对区域建议框进行分类得到结果。通常单阶段法执行速度快，双阶段法精度更高。

单阶段法的目标检测代表算法有YOLO（You Only Look Once）系列、SDD（Single Shot Detector）系列等。YOLO系列算法核心是将目标检测视作一个回归问题，通过将图片视为若干区域并对各区域同时预测边界框（Bounding Box）位置和类别［27］。YOLOv1［28］的核心思想如图1所示。它将图像分成S×S个网格，如果某个目标的中心落在这个网格中，则这个网格就负责预测这个目标，每个网格负责多个边界框，预测内容包括位置、置信度和类别。这种方法可以对中大型目标进行有效检测，由于采用的网络结构GoogLeNet［29］对小目标的特征不敏感，导致小目标检测准确率较低。YOLOv2算法引入批量归一化（Batch Normalization，BN）层来加强网络的收敛速度，并使用DarkNet-19网络提取特征，预测准确度更高，速度更快。YOLOv3通过引入残差网络（ResNet）［30］和全局平均池化层（Global Average Pooling， GAP）构造DarkNet-53网络，如图2所示。它是一个53层的深度卷积神经网络，采用多个残差块加深网络深度，利用跳跃连接（Skip Connection）和批量归一化等技术有效地缓解梯度消失和梯度爆炸等问题，提高网络的训练效率和准确率的同时具有较少的参数和计算复杂度。YOLOv3将网络应用到整幅图像，根据图像划分各种区域和边界，并加入特征金字塔［31］（Feature Image Pyramid，FPN）多尺度预测结构，提高算法对图像信息的提取能力，尤其是对小目标的处理，效率更加高效。YOLOv4在YOLOv3基础上使用Mosaic数据增强CSP结构和PAN结构，由于Mosaic策略对图片可进行任意放缩剪切拼接，产生大量小目标对象，增强了网络的鲁棒性。YOLOv5在数据处理中除Mosaic数据增强外，还加入自适应图片缩放和多尺度锚框，在主干网络中使用CSP结构，在Neck网络中使用像素聚合网络［32］和空间金字塔池化网络［33］（Spatial Pyramid Pooling，SPP），是对之前Yolo算法的集大成者，准确度和实时性都有较高提升。YoloX［34］采用无锚、多解耦头机制以及标签分配策略，无需非极大抑制的后处理，同时也去除人工锚框预选工作，实现端到端检测。YOLOv6［35］基于RepVGG Style［36］设计可重参数化和更高效的主干网络EfficientRep。YOLOv7［37］针对重参数模块的替换问题和动态标签分配问题，提出了合模型伸缩方法和免费技巧袋（Bag-Of-Freebies）检测器。YOLOv8基于YOLOv5对网络模型结构及参数进行微调，并使用解耦头结构和无锚框等机制，进一步提高检测性能，可同时完成分类分割姿态估计等视觉任务。

图1 Yolov1模型结构图Fig.1 Yolov1 model structure

图2 DarkNet-53网络结构图Fig.2 DarkNet-53 networks structure

Liu等［38］针对YOLOv1对小目标检测效果的不足，引入多尺度特征提取思想构建SSD，但所使用的VGG网络［39］提取特征能力较弱。在此基础上，Fu等［40］使用ResNet-101［30］作为主干网络替代VGG，Li［41］等引入FPN结构构造金字塔特征，Lin 等［31］基于FPN对浅层的特征图进行池化操作并与邻接特征图进行通道拼接融合不同层的特征，使得深层特征图既具有高语义信息，又拥有浅层特征图传来的细节信息。Lin等［42］进一步针对SSD和YOLOv2中前景和背景类别的不平衡问题提出焦点函数，平衡难分负样本（Hard negatives）和易分负样本（Easy negatives）在标准交叉熵中所占权重，极大提高了检测效果。

两阶段目标检测相较于单阶段精度高但速度慢，主要代表算法有RCNN［26］系列、SPPNet［33］、FPN［31］等。RCNN算法首先对输入的图片进行选择性搜索产生大量的区域候选区，再对每个区域进行特征提取并通过支持向量机［43］对其分类，从而得到检测结果。由于RCNN中需要对每个候选区进行特征提取，耗费大量算力，SPPNet网络在R-CNN基础上通过候选区与特征图间的映射，配合SPP层将不同尺度的图片转换为固定大小的图片，减少了计算量和信息丢失。基于SPPNet思想，Ren等［44］在Fast RCNN中采用多任务损失训练，提高RCNN性能。Faster RCNN模型结构如图3所示，它将特征提取器、候选框模块和分类器融合为一个网络，较大提高了模型性能。FPN网络引入金字塔结构融合不同尺度的特征，提升特征表达能力，这种方法也被用在单阶段目标检测算法中。

图3 Faster RCNN模型结构图Fig.3 Faster RCNN model structure

2.1.3 基于Transformer

Transformer是首个仅基于自注意力机制（selfattention）的语言模型，如图4所示。它的网络架构主要包含多层堆叠的编码器（encoder）和解码器（decoder），其中编码器/解码器包含多头注意力机制（multi-head attention）、层归一化（layer norm）和残差结构（residual），输入由数据嵌入和位置编码组成，最后由一个全连接层做预测。传统的循环神经网络对序列难以并行建模，长距离的序列依赖关系需要凭借上下文处理后的信息逐级传递过来，而Transformer通过多头注意力机制有效捕捉全局信息并且方便并行运算。Transformer本质上是一个优秀的特征提取器，通过对输入端和输出端做不同处理即可灵活应用在多场景中。

图4 Transformer模型结构图Fig.4 Transformer model structure

卷积结构具有平移不变性和局部敏感性，可以充分提取局部时空特征，但对图像的全局信息感知能力较弱，由于Transformer模型能够有效地对全局依赖性进行建模，许多研究人员开始尝试将Transformer运用在视觉领域中。自2020年DETR（Object Detection with Transformers）［45］被提出，涌现大量基于Transformer的目标检测算法，并且在标准数据集上取得了优异表现。

2020年，Dosovitskiy 等［46］在ViT（Vision Transformer）中首次在图像分类任务上应用Transformer，将输入图像视为多个小图像块，并将每个小图像块投影为长度固定的向量输入到Transformer中，通过解码器获得预测结果。由于ViT模型只用到输出向量的类别信息，大量剩余信息被丢弃，基于此，Jia等［47］将ViT中的输出向量处理成一个特征图并进行区域建议，最后对其进行分类和定位，本质上是将FRCNN的特征提取模块换成Transformer。

DETR是第一个基于标准Transformer模型的目标检测方法，如图5所示。它采用卷积网络将输入图像转化为2维特征向量并送入到Transformer模型中，最后通过前馈网络［24］（Fully-Connected Feedforward Network ，FFN）获得预测结果。由于Transformer通过交叉注意力在特征图上从平均注意学习为稀疏图，训练非常耗时。Sun等［48］分别在特征提取模块与编码器之间加入区域建议网络（Region Proposal Network）和兴趣特征（Feature of Interest）以提高训练速度。Dai等［49］提出基于卷积的动态编码解码的Dynamic DETR，可基于尺度、空间和特征动态调整注意力，再通过动态解码器中兴趣区域（Region of Interest）实现高效收敛（训练速度提高14倍）。

图5 DETR模型结构图Fig.5 DETR model Structure

Bao等［50］首次将大规模预训练模型BERT运用在视觉领域，其核心思想是通过Transformer架构来处理图像数据，将图像分割成若干个小块，并将每个小块的像素值作为输入，通过堆叠Transformer模块来学习图像特征表示。具体来说，BEIT采用了两个阶段的预训练方法，第一阶段利用大规模无标签图像数据，进行自监督预训练，学习出一个高质量的图像特征表示；第二阶段通过有标签的图像数据对模型进行微调以适应特定的任务，该模型不仅在图像分类和目标检测等任务上取得优异表现，也适用于图像分割、视觉问答等视觉任务。Ren等［51］认为解码器的查询（Query）有关注特征图位置信息的能力，通过将2维信息引入到查询中提高了模型的定位能力。Dab-DETR［52］也将锚框作为解码器的查询以提供空间先验信息，可通过锚框参数显式调节位置注意力图。基于将解码器查询视为动态锚框的思想，自监督学习模型DINO［53］在视觉变换背景下学习图像特征，通过混合查询选择法对锚点进行初始化，使初始查询获取更合适的位置信息；采用对比去噪训练法，在不需要手动标注的情况下通过添加相同基础真值的正样本和负样本，减少模型重复输出同一目标的情况；再通过向前看两次法优化模型前后层的参数更新，作为类似DETR的模型首次在COCO数据集上获得SOTA（state-of-the-art model）结果。图6展示了近年主流的2D目标检测算法。

图6 2D目标检测算法Fig.6 2D object detection models

2.2 3D目标检测

智能单车通过传感器对3D空间中的数据进行定位与分类，每个目标由类别信息和位置信息（3D框）组成，如图7所示。目前3D边框主要有三种表示，分别是8角点法、4角2高法和7坐标参数法［54］。

图7 3D框标注法图7 3D box labeling method

常用的检测方法有生成候选区域、关键点匹配、基于表现形式转化等。

2.2.1 基于生成候选区域

基于生成候选区域法通常在目标附近生成稠密的3D候选区，依靠人工设计的特征计算获得评分，最后通过NMS输出结果。

作为该方向的先驱性工作之一的Mono 3D［55］，首先通过滑动窗口在3D空间中对3D目标进行采样生成一组候选类建议框，并假设目标所在地平面与图像平面正交以减少冗余的搜索计算；再通过形状、位置、语义等先验信息对候选框进行评分；最后使用Fast RCNN网络获得目标检测结果。为增强3D空间与2D图像间的关联性，He等［56］使用由3D锚框模型和可变线框模型组成的联合建模方法，对车辆的形状和形态进行粗细表示。Weng等［57］提出一种基于几何距离分解的新式深度信息表达方法，将目标抽象为一个包围中心垂直线三维锚框，将物体的投影抽象为这些线段的投影，最后根据成像的几何形状获得距离信息。Müller等［58］在不使用连续观察、形状、CAD模型等其他先验知识的前提下，只通过单视图下3D实例分割结果获得以对象为中心的表示。该表示可分解为形状和外观组件。

综上所述，此类方法由3D检测结果结合一些先验信息从而获得2D图像与3D空间中目标匹配关系，需要大量的人工特征设计和计算，这严重限制了此类模型的泛化性。

2.2.2 基于关键点匹配

基于关键点匹配的3D目标检测方法通过将预测的2D框与提前设定好的关键点约束相结合得出目标框的定位和回归结果，在自动驾驶环境中，机动车、行人、车道等通常都是已知的几何刚体，这些尺寸信息可以作为距离判断的依据。

Chabot等［59］通过级联Faster RCNN得到2D边界框，将车辆的几何信息（车身精细坐标、3维模板相似度）和零部件信息进行模板相似度匹配，强化图片与3D空间的匹配健壮性。Mousavian等［60］通过几何射影约束目标的回归与定位，并引入一种混合离散-连续损失训练模型，减少模型对复杂的先验知识的依赖性。在处理非平坦道路下的目标检测中，Ansari 等［61］使用36个关键点表示目标车辆，再使用一组基本向量和可变参数来预测最终的目标形状；另外，通过在Shape Net汽车模型存储库渲染生成的240万个3D CAD模型数据集上训练出的关键点检测模型，在真实数据场景上有较高的泛化性。通过主成分分析［62］（Principal Component Analysis，PCA）对三维形状空间建模；通过基于兴趣区域池化特征进行分类回归（如将距离按区间划分并分类）获得姿态和位置信息。该模型性能优秀，但输入较为复杂，需要2D候选框、3D候选框、3D CAD模型、3D语义分割结果以及相机参数，泛化性较差。Chen等［63］受图像字幕法的启发，通过对近距离物体的空间关系建模来预测远处目标的位置信息，将成对空间约束建模为相邻对象间的几何中心的关键点；另外将深度估计过程的不确定性包含在预测过程中，优化模型对几何信息的建模能力和实时性。

2.2.3 基于表现形式转化

基于表现形式转化的3D检测模型的方法有将前视视角转换为鸟瞰图视角法和伪雷达点云法。

在自动驾驶中，相机通常被放置在车身上捕捉图像，然而前视视角获取的视频容易发生遮挡以及基于透视导致目标的形变，进而影响模型判断。解决这一问题的方法之一就是将前视视角转换为鸟瞰图视角（Birds-eye-view，BEV［64］），本质上它是一种将3D视图转换为2D视图的方法，在这种视角下同一地面的目标不会发生重叠和明显的形状变化。目前这类研究工作可分为基于几何变换和基于网络变换两种方法，前者基于相机内外参数的物理原理，后者通过神经网络将透视图投影到BEV上。Roddick等［65］通过正交特征变换将透视图像映射为正交BEV视角，使用ResNet-18对输入图像进行多尺度特征提取，通过正交特征变换将特征图映射为正交鸟瞰图表示，再由一系列ResNet单元组成的Topdown Network进行目标检测。Kim 等［66］利用相机的外部参数和惯性测量单元（IMU）信息消除了相机俯仰、侧倾等运动，从而修正了前视图像投影的BEV图像。Srivastava 等［67］使用BirdGAN对抗网络生成BEV数据，并通过BirdNet进行物体检测，配合Perspective Transformer Network［68］将图像映射为3D空间进行3D目标检测。

伪雷达点云法通过图片预测深度并产生点云信息。Xu等［69］通过独立视差模块获得不同位置的深度信息并在不同层次上作用于图像，将每一像素映射到3D空间中并与图像特征融合进行检测。Wang等［70］认为影响基于单目或立体图像数据的方法精度的主要原因是数据的表现形式，在Pseudo-liDAR中采用深度估计算，将图片位置直接投影到点云空间中，再通过基于LiDAR数据的3D检测算法进行检测，获得优秀的检测结果。Cheng 等［71］将图片转化为更为稠密的3D点云数据并将其分散到整个深度空间中。Wang等［72］认为每个位置的深度信息重要性不同，采用两个深度估计模型分别训练前景和背景，在推理过程中选择性的融合深度图。Chen等［73］基于Transformer架构捕捉正面视图与BEV视图的相关性，以及正面特征的局部信息交互，通过交叉注意模块增强特征信息，所提出的PersFormer在车道线检测任务上获得了优异表现。

3 语义分割

语义分割任务是将给定的图像按像素级进行分类，并从标签集中预测每个像素的语义类别，是自动驾驶全景感知的关键算法之一。Mo等［74］分别从弱监督语义分割、跨场景自适应能力、多模态数据融合以及实时性四个方面较为全面地阐述2020年之前语义分割任务的发展，但还缺少对基于Transformer的语义分割研究。本节对近年基于Transformer和CNN语义分割任务的发展进行总结。

3.1 基于Transformer 语义分割

传统深度学习语义分割方法大多采用全卷积网络的Encoder-Decoder模式，逐步降低空间分辨率并提取图像特征，再将提取的特征进行上采样以达到像素级分类的目的。该类模型性能取决于网络感受野大小，然而感受野增大意味着参数量的增加，过度的下采样又不可避免的丢失信息。

Zheng等［75］将语义分割视为序列到序列（Sequence-to-sequence，Seq2Seq）的预测问题，开创性地建立纯基于Transformer的模型SETR，沿用ViT［46］的做法将图片划分为图片块集输入，经Transformer建模获得特征向量，再恢复到原图像分辨率，在不使用下采样的操作下较大程度地提高检测精度，但也大幅增加模型参数量。Strudel等［76］受DETR［45］、Max-DeepLab［77］和 SOLO-v2［78］启发，将ViT编码器的结果和类嵌入输入解码器，经过上采样完成预测。然而基于ViT的编码器只能输出单尺度低分辨率特征，无法满足细节要求高的场景，随着图片尺寸变大计算量大幅增加，并且当测试和训练的图像分辨率不一致时绝对位置编码的插值操作会导致性能下降。为解决这些问题，Xie等［79］在编码器中对图片进行多尺度特征提取，并将位置编码替换为卷积操作，采用轻量级多层感知器，提高模型性能和鲁棒性。

Liu等［80］在Swin Transformer中引入滑动窗口机制和跨阶段特征共享等创新技术，其中滑动窗口过程包括局部窗口和交叉窗口，它将注意力限制在一个固定窗口中起到了类似于CNN网络中卷积作用，并降低计算复杂度。如图8所示，Swin Transformer采用多层次下采样操作逐步扩大感受野从而获取全局特征，大大提高模型计算效率和准确率，在图像分类和目标检测等视觉任务中均表现出色，成为视觉领域新式主干网络。Caron等［81］发现自监督ViT的注意力模块能够显式地包含图片场景信息和识别出物体边界，并且仅使用基础的最近邻分类器k-NN就可以拥有优秀的性能。所提出的无标注知识蒸馏（Knowledge Distillation with NO labels）不依赖于任何人工标注，能够在大量数据上进行有效的特征学习，该方法为自监督学习在视觉任务上的应用提供新思路。Mask DINO［82］通过对DINO预测端添加Mask分支从而实现分割任务，它采用自监督学习方式，通过将图像进行变换和重构，使模型学习图像的特征并进行分割，降低了训练成本和人工操作。另外，Mask DINO扩展DINO中预测的三个关键组件：将Mask查询初始化为锚；提出针对Mask的统一去噪训练来加速分割训练；使用混合的二部匹配更精确地匹配Box和Mask。Mask DINO通过共享架构设计和训练方法证明了检测和分割可相互帮助，并且在大规模预训练下获得实例、全景和语义分割的最佳结果。

图8 Swin transformer网络结构图Fig.8 Swin transformer networks structure

基于Transformer的模型有着优秀的全局建模能力，依靠海量数据和参数有不错的表现，但在高精度图片上计算量过大，难以达到实时检测的要求；并且较大的感受野意味着会丢失一些细节信息。高质量与轻量化相结合是当前的研究重点。

3.2 基于CNN语义分割

近年来基于ViT的大规模视觉模型得到长足的发展，CNN领域的研究人员将ViT与CNN相结合，得到不错的结果。Touvron等［83］用注意力层替代平均池化层，将图片块集作为输出，所提出的Patch-ConvNet模型取得和基于Swin架构模型同水平结果。Rao等［84］认为Transformer的成功主要是输入自适应、全局依赖性和高阶空间信息交互能力，但缺少对点积自注意在高阶空间交互作用的研究，在HorNet中通过递归门控卷积实现高效、可扩展和平移变换的高阶空间交互作用。

Wang等［85］认为ViT模型的优势主要是依靠海量数据和参数，以及具有长程依赖性的多头自注意力机制、层归一化和FFN等先进网络组件，基于此在所提出的InternImage中采用可变形卷积机制强化模型自适应空间建模能力，并减少归纳偏置操作，通过大规模参数和训练数据取得了当前最优性能，成为第一个大规模（参数量10亿，训练数据4.27亿）CNN模型。Cai等［86］认为图片信息在深层网络中经常被压缩或丢弃而导致模型性能差，为此构建由多个可逆连结的子网络组成的主体网络，保证信息传输过程中可被分解保存。为解决大规模数据计算资源多和存储空间占用大两个问题，RevCol采用可逆卷积结构，即将卷积操作拆分成前向卷积和反向卷积两个步骤，通过反向卷积将前向卷积的输出恢复到输入形状，实现了卷积操作的可逆性。在保持准确率的同时减少网络的参数和计算复杂度，在语义分割、目标检测等视觉领域都有出色表现。由于其整体设计简洁，只需改变网络内部组件块就可推广到Vision Transformer、自然语言处理等任务上。为减少针对分割任务的特定建模专业知识、训练成本和数据标注成本，Meta AI推出计算机视觉第一个基础模型SAM （Segment Anything Model ）［87］，它在包含数百万张图像和数十亿个掩码的大型数据集上进行训练，有着非常强大的泛化能力。同时SAM是一种可提示（点击、框选、文本等）的分割系统，可以在不需要额外训练的情况下对陌生的图像进行零样本迁移（Zero-shot Transfer）［88］，从而“剪切”任何图像中的任何对象。该模型提供了至今为止最大的分割数据集SA-1B（Segment Anything 1-Billion），包含1100万张左右的图像和11亿个分割掩码。目前主流的语义分割算法如图9所示。

图9 语义分割算法Fig.9 Semantic segmentation models

4 总结与展望

综上所述，自动驾驶技术在目标检测任务上取得了不少进展，已实现高精度的目标检测，处理大规模数据的同时算法模型也更加轻量化、实时性。语义分割技术在实时性和精度方面也都取得了进步，逐步应用于自动驾驶领域。大模型的出现进一步提高模型的性能和准确率，这些模型有着优秀的泛化能力，能够胜任不同的复杂场景，并且零样本迁移和少样本学习（Few-Shot）［89］技术能够大幅减少实际场景中的人工操作，降低算法落地成本，推动机器视觉和自动驾驶的发展。

但基于单目视觉的感知算法仍存在一些挑战，主要如下：

（1）复杂环境下的检测问题。自动驾驶车辆需要在各种复杂场景中进行目标检测，如夜间、弱光、雨雪天气等。这些环境对传感器的要求更高，也对算法性能提出了更高的要求。

（2）漏检和误检问题。算法可能会出现漏检和误检问题，尤其是在复杂环境下。这些问题可能会导致车辆无法正确检测到道路上的物体或错误地识别了物体，从而对行驶安全产生威胁。

（3）计算复杂度高。语义分割算法的计算复杂度非常高，这可能会导致算法无法在实时性方面满足要求。在自动驾驶中，实时性是非常重要的，因为车辆需要及时地对路况做出反应。

（4）数据不可靠。自动驾驶车辆需要依赖传感器数据来进行目标检测和语义分割，但在某些情况下，传感器数据可能会受到干扰或损坏，从而导致数据不可靠。这可能会对自动驾驶的安全性产生潜在的威胁。

随着技术的不断发展，自动驾驶的目标检测和语义分割技术将会得到进一步的改进和优化。例如融合多模态数据，使用不同传感器数据和车辆行驶路线等信息，打造更多的无人驾驶路侧辅助单元，在车辆无法感知的情况下提供辅助信息，实现更加精准感知技术等。