基于自动驾驶道路场景的语义分割方法研究*

2024-01-03张佳琪惠永科

机械工程与自动化 2023年6期

张佳琪，袁骏，惠永科，胡勇，张睿

(1.太原科技大学计算机科学与技术学院，山西太原 030024；2.中国机械科学研究总院集团有限公司，北京 100044)

0 引言

自动驾驶领域中利用语义分割技术对路况进行分类有助于系统了解路况,进而做出更为精确的路径规划以及更为及时地规避障碍物,确保行车的安全,因此关于道路场景的分割对自动驾驶系统来说有着重要的现实意义。

现有的基于语义的图像分割方法已难以适用于多个目标的分割任务,而基于深度学习的方法为计算机视觉领域的研究带来了新的突破。与经典的体系结构相比,卷积神经网络(Convolutional Neural Networks,CNN)图像语义分割技术[1]能显示出更好的效率和准确性。陈先昌[2]和Farabet等[3]提出了一种使用从原始像素训练的多尺度卷积网络对密集特征向量进行提取,以图像中每个像素为中心,为多个大小的区域进行编码的方法;Long等[4]提出的全卷积神经网络(Fully Convolutional Networks,FCN)的流水线虽然扩展了卷积神经网络,并且可以预测任意尺寸的输入图像,但是FCN预测结果分辨率比较低;Ronneberger等[5]提出的UNet在上采样部分中具有大量特征通道,使得较高分辨率层能够接收到上下文信息,通过“U”字网络形状获得深度特征和浅层信息,达到了预测的目的。

随着大规模公共数据集和进化的高性能图形处理器(Graphic Process Unit,GPU)技术的发展,出现了一种高效的语义分割网络CPNet[6],能够捕捉到类与类之间的语义关系,进而提高了该网络对道路场景的理解分析能力。而基于像素的纵向位置且有选择性的突出信息属性的网络HANet[7]则可以更好地实现城市街道场景图像的语义分割。

1 道路场景语义分割的优化算法设计

图1 改进后的DeepLab 网络结构

图2 通道注意力结构

FCA(vh,WC)=σ1{fc2{δ[fc1(vh,WC1)],WC2}}.

(1)

其中:FCA(vh,WC)为进行完激活函数后的输出;WC、WC1、WC2均为通道注意力模块中的参数;σ1为Sigmoid操作;fc1、fc2分别为第一个全连接层和第二个全连接层;δ为ReLU函数。

(2)

CA将对响应较高的通道给予较大的加权,为了进一步提高融合性能,将之前输入图像中的不同通道进行拼接融合,然后使用1×1卷积来进行维度的降低,与此同时使用CA注意力模块融合从主干网络提取出的特征图,并提取丰富的上下文信息,得到有效的高阶特征。

在解码器端输入图像并通过ResNet50模型的输入层后,首先将两个特征图同时提取出来作为解码器的特征输入信息,根据迁移残差连接的思想,将所提取出的两个特征图分为两条路径,一路经过注意力机制SE(Squeeze-and-Excitation)模块,在SE模块中对高阶特征进行处理,产生有效的特征图,从而提高分割结果,另一路不通过SE模块;接着再将两路提取出的低级特征分别经过1×1的卷积操作降维后再叠加,之后融合编码器中四倍上采样获取的高级特征,最后经过3×3的卷积和上采样的方法将其还原到与输入图像相同的分辨率,并对特征进行进一步的精细化,进而恢复空间信息。

本文采用了信息论中的重要函数——交叉熵损失函数,交叉熵损失函数计算公式定义为:

L=-yilog2pi-(1-yi)log2(1-pi).

(3)

其中:yi为输出的真实值,yi=0或yi=1;pi为样本的预测概率。