基于改进深度残差网络的路面状态分类
2022-10-31刘奥强张旭
刘奥强,张旭
(201620 上海市 上海工程技术大学 机械与汽车工程学院)
0 引言
近年来,自动驾驶技术成为图像领域的研究热点之一。自动驾驶技术在减少交通事故、减缓交通拥堵、降低能耗、保护环境等方面具有巨大潜能,较好的分类识别模型可有效提高安全驾驶水平。在实际的道路场景中,路面状态可分为:干燥路面、结冰路面、潮湿路面、积雪路面、泥泞路面等,且路面状态受天气、光照变化、运动模糊等不利因素影响。传统的图像分类方法虽然能提取图像特征对路面进行一定的分类识别,但提取的特征准确度不稳定,且路面分类识别适应性较差,因此路面状态识别分类存在诸多待研究改进的方面。
20 世纪80 年代,多层神经网络[1]这一概念被学者提出,LECUN[2-3]等人在文字识别中应用卷积神经网络,减少了人工提取特征的工作量;KRIZHEVSKY[4-5]等人提出经典卷积神经网络结构,并在图像识别任务上取得重要突破。近年来,CNN(Convolutional Neural Network)在许多邻域发展迅速,在处理图像目标检测[6]与分类等问题上表现优越。在路面状态分类识别方面,文献[7]提出一种经典的神经网络结构,但网络分类正确率较低;文献[8]提出一种基于颜色空间特征的路面状态识别方法;文献[9]提出基于改进支持向量机识别路面状态,在混合路况识别率达到85%,但样本量少。
深度学习受到众多研究者喜爱,其中一个关键因素是网络模型的不断改进和创新。神经网络的改进会影响数据集特征提取的效果,因此,模型选择是深度神经网络中重要的组成部分。
深度残差网络块的优化改进,既能显著增强特征提取的多样性,又能有效减低训练误差,因此本文在ResNet50 基础上研究图像分类识别,并进一步研究残差块对图像分类准确率的影响,提出一种改进的深度残差网络模型,并在路面状态数据集上进行实验研究。实验结果表明,改进后的深度残差网络提高了分类的准确度。
1 模型调整
在特定的任务中,选择模型是不可忽视的重要环节,改变一些参数都可能对分类结果产生很大影响,所以本文以ResNet 为例研究模型调整的效果。
1.1 ResNet50 结构
ResNet 网络作为图像分类的主流模型,其作用被研究者认同,主要原因是其很深的层次结构于分类识别领域有很大作用。
从阶段2 开始,每个阶段从下采样块开始,然后是几个剩余块。在下采样块中,有2 个路径。左边路径具有3 个卷积,其卷积大小分别为1×1,3×3 和1×1,这是一个完整的瓶颈结构;另一个路径使用1×1 转换,步长为2。可以对2 个路径叠加求和,得到输出。
ResNet网络模型作为一个图像分类大的框架,有很多变体,都是改变网络模型的卷积层数,达到模型的深度结构,更深的模型有ResNet152 等。
1.2 ResNet50 结构调整
受ResNet 启发,我们注意到下采样块的路径B 中的1×1 卷积也忽略了3/4 的输入特征映射,需要对其进行修改,便不会忽略任何信息。经验发现,在卷积前增加一个2×2 的平均汇集层,步长为2,步长变为1 在实践中效果很好,对计算成本的影响很小。图1 说明了这一调整。
图1 改进前后ResNet50 残差块结构Fig.1 Resnet50 residuals block structure before and after Improvement
2 实验结果与分析
2.1 实验平台及数据集
本文是在Windows 10(x64)操作系统下进行仿真实验,选择的软件平台为MATLAB R2020b。在GeForce GTX 880M GPU 工作站上运行,结果证明对数据集的识别准确率较高。
本文道路状态数据采用牛津机器人数据集[10]和KITTI 数据集[11],道路状态分类如表1 所示。经过视频图像预处理后,每类样本各有1 000 幅图像,训练数据800 幅,测试数据200 幅。实验流程如图2 所示。
表1 道路状态分类Tab.1 Road condition classification
图2 路面状态分类识别流程图Fig.2 Flow chart of pavement condition classification and identification
选择图片中间轴线作为中心基面,前方选择相应的矩形像素点进行分类识别。建立路面数据集后,图像数据预处理经过以下步骤:去除模糊图像;应用同态滤波对图片光照强度统一化处理[12];对路面状态集中图像标签标定;最后将数据图片放入深度学习模型中训练识别。本文所采用的CNN 网络结构示意图如图3 所示。
图3 CNN 网络结构示意图Fig.3 Schematic diagram of CNN network structure
2.2 不同方法实验对比分析
将本文的神经网络与AlexNet,VGG16,ResNet50 这3 种网络模型进行对比,并且加入SVM、BP 神经网络2 个传统机器学习模型分析结果进行比较。SVM 与BP 模型采用HVS 颜色空间特征和灰度共生矩阵特征,各模型实验平均准确度分类结果如表2 所示。
表2 准确率对比Tab.2 Comparison of accuracy
表2 展示了这6 种机器学习模型在路面状态数据集中的分类识别结果。结果表明,改进的深度残差网络达到了很好的分类准确率。传统的机器学习模型SVM 与BP 神经网络对于干燥的路面状况识别效果较差,主要原因是光照强度改变但没设置合适的特征用于模型的训练;SVM 模型适合小数据集(500 张图片)的分类识别,故在该数据中训练没达到最好的性能,且反映出传统的SVM 模型不适用于智能驾驶系统。本文在深度残差网络的基础上进行了调整,增强了网络对于路面状态数据集的特征提取效果,从而验证了本文提出的网络模型应用于路面状态分类识别的有效性。
3 结语
深度残差网络具有很强的分类学习能力,在解决图像分类识别问题中具有优秀的性能。本文选用深度学习的方法,结合改进的深度残差网络和具有强大运算能力的GPU,对常见的5 类路面状态进行分类识别。结果显示:调整的深度残差网络具有较高的识别准确率,本文的数据集中平均识别准确率达到94.35%,且该网络模型具有较好的推广应用能力。实验发现,提出改进残差网络结构的深度学习模型在参数和架构上仍然具有提升的空间,所以将来在提高识别准确率的图像分析处理工作中,完善路面状态数据集、改善网络结构和参数是下一个研究目标。