卷积神经网络在道路裂缝检测中的应用*
2021-01-25韩海航迟凤霞
韩海航 ,迟凤霞
(1.浙江省道桥检测与养护技术研究重点实验室,浙江 杭州 310012;2.浙江省交通运输科学研究院,浙江 杭州 310012)
沥青路面作为公路工程的重要组成部分,是推动经济发展的重要基础设施。随着使用年限的增长,沥青路面出现了不同形式病害,其中路面裂缝已经成为省内公路及城市道路的最主要病害。伴随计算机与摄像头等硬件的发展,将检测装备搭载于车辆,可以在80km/h 的车速下开展检测工作并且不阻碍交通。车载设备能在短时间内快速获取大量路面高质量数据。目前对所采集的裂缝图像主要通过人工进行分析判断,但人工分析存在工作效率低、劳动强度大、复现性差、人力成本高、精准度低等缺陷。近年来也有众多研究利用数字图像处理技术进行沥青路面病害识别,多局限于二维灰度图像分析技术。但是二维图像信噪比较低,无法精确提取目标信息,因此应用效果不尽人意。路面裂缝采集技术在各国都已经有较为成熟的设备,并且能够为相应的科研机构和科研人员提供高质量的路面图片;但是在沥青路面裂缝智能分析上应用技术尚不成熟,需要进一步提高。近年来,基于深度学习进行裂缝检测的研究逐渐开展,如西安电子科技大学使用卷积神经网络对桥梁裂缝进行检测,长安大学应用CNN 和Faster-CNN 进行路面裂缝识别与定位。
为了改进公路沥青路面裂缝的智能识别技术,提高裂缝识别的速度与准确度,进一步提高裂缝分析效率,降低工作量,本文从卷积神经网络基础概念出发,具体分析了卷积神经网络在沥青路面自动化检测中的应用。
1 卷积神经网络结构介绍
卷积神经网络属于机器学习的范畴,随着不断研究,其在沥青路面裂缝检测中的应用也越来越广泛。卷积神经网络的主要结构层包括输入层、卷积层、池化层、dropout 层、激活层、全连接层、输出层等。
1.1 输入层
输入层是卷积神经网络接受大量非线性输入的结构,对于图像处理问题来说,卷积神经网络的输入层就是图片本身,输入的图片可以是单通道灰度图片,也可以是三通道的RGB 图片。
1.2 卷积层
卷积层(Convolutional Layer)是卷积神经网络最基础同时也是最不可或缺的组件,其基本思路为使用一个参数化的卷积核(一般可选3*3 或者5*5),将此卷积核以滑动窗口的形式与局部输入特征做数乘后求和。更形象的解释如图1 所示。
图1 卷积层
卷积运算的主要目的是提取输入的探地雷达图像的不同特征,通过每个卷积核与输入矩阵的卷积运算实现。卷积核的操作主要包括子矩阵和卷积核矩阵的叉乘。卷积核矩阵的初始权值通过系统随机生成,随后在训练过程中通过随机梯度下降法调整;叉乘得到的值累加后与偏值相加。
相比于全连接神经网络,卷积层有两个特点:局部连接和权值共享。局部连接的含义为卷积层输出的每一个神经元都只与前一层输入的一小部分相关联,这能极大减少需要训练的参数量;权值共享的含义为卷积层输出的各个神经元共享同一个卷积核参数,仅仅将此卷积核应用于输入图像的不同位置,这种方法能进一步降低参数量。
在卷积操作中,图片边缘的像素点比图像中间的像素点被计算的次数更少,所以用额外的0 像素填充图像边缘,增多边缘像素点被计算的次数。此方方法被称为Padding。Padding 为1 的卷积操作如图1 所示。普通的卷积操作滑动窗口的步长为1,当需要更大步长的滑动卷积操作时,我们需要修改Strides,当Strides 为2 时,代表卷积操作滑动窗口的步长为2。
1.3 池化层
池化层(Pooling Layer)往往夹在连续的卷积层之间,用以压缩数据和参数的量,实现特征降维,减小模型过拟合,对于探地雷达图像而言,池化层的主要作用就是压缩图像。CNN 模型中常采用的池化方式有最大池化和平均池化,具体操作过程如图2 所示。
图2 池化层
以最大池化(Max pooling)为例,它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。
1.4 激活层
神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值,并将输入值传递给下一层,输入层神经元节点会将输入属性值直接传递给下一层(隐层或输出层)。在多层神经网络中,上层节点的输出和下层节点的输入之间具有一个函数关系,这个函数称为激活函数(又称激励函数)。常用的激活函数有sigmoid,tanh,ReLU 等,函数的形式具体如表 1、表 2 所示。
1.5 Drop-out 层
由于在进行探地雷达图像的训练时,容易发生过拟合现象,过拟合虽然可以对训练集病害精确分类,但是对验证集和测试集的病害分类结果则不理想。通过在激活层和全连接层间加入drop-out 层则能有效降低模型过拟合的可能性,drop-out 层能通过随机断开部分神经元间的连接减少每一层过拟合神经元对后续计算的影响。
1.6 全连接层
与卷积层局部连接不同的是,全连接层的每一个神经元都与前一层的所有神经元连接。全连接层可以综合前一层提取出的图像特征,并将前一层具有的类别局部信息重新整合并映射到样本标记空间。通过全连接层的构建可以增强对于图像分类问题的鲁棒性,但是全连接层对于图像的空间结构不敏感,不适合用来做目标定位和图像分割。除此之外,全连接层参数量大,容易造成过拟合。
1.7 输出层
输出层在全连接层之后,对于不同的需求,具有不同的输出形式。对于分类问题,输出层是一个分类器,输出的是目标类别;对于目标定位和分割问题,神经网络的输出还包括目标的位置。
2 卷积神经网络在道路裂缝检测中的应用
2.1 裂缝分类网络
沥青路面裂缝图像分类是一个模式分类问题,其目标是将不同种类的裂缝,划分到不同的类别,并保持最小的分类误差。图像分类网络模型较为简单,通常只有卷积神经网络堆叠构成,且图像分类任务样本的标注成本较低,只需为每一张图提供一个类别标签即可。
2.2 裂缝分割网络
图像语义分割算法是一种细致到像素级别上的分类,即属于同一类的像素都要被归为一类,因此语义分割是从像素级别来理解图像的。相比于分类算法只能给出图像的类别,语义分割算法不但能处理一图多病害的情况,给出图中各类别病害的分类结果,甚至还能提供各类别病害数量、裂缝长度、面积、病害处于图中具体位置等计量信息。有助于为后续维养方案提供数据参考。但图像分割网络较为复杂,除卷积神经网络外还具有如跳层连接等特殊的网络结构,调参的复杂度较大。且图像分割的标注精确到像素级难度非常之大,往往很难在短时间内提供足够的训练样本。
表2 激活函数优缺点
3 结论
本文分别研究了分类模型和语义分割模型在沥青路面裂缝病害识别上的应用。分类模型在图中有单一病害的情况下具有较好的识别效果,但无法分析图中病害数量、裂缝长度等信息。而目前语义分割算法在部分干扰因素较少的图中已经可以识别出接近与实际标注的分割图,对横、纵向裂缝的识别较好。
表1 常用激活函数及其数学形态