基于Double U-Net的基础设施表面裂纹检测

2023-05-10周岳钰桂艺婷

扬州大学学报(自然科学版) 2023年2期

高静, 周岳钰, 桂艺婷, 朱柱, 闻军*

(1. 安庆师范大学电子工程与智能制造学院, 安徽安庆 246133;2. 金陵科技学院计算机工程学院, 南京 211169)

因长期受交通载荷、腐蚀和高温等多种恶劣因素的共同作用, 公共基础设施表面易出现裂纹、坑槽或翻浆等缺陷[1]. 定期检测可以为基础设施的维护提供重要决策依据,有助于延长其使用寿命[2-3]. 人工目视检测方法适用范围虽广, 但过度依赖于检测人员的主观判断, 缺乏客观统一的检测标准. 超声波、射线或电磁等检测方法虽然能准确检测出裂纹位置, 但对检测环境要求苛刻且实时性较差[4]. 数字图像处理技术在裂纹分割领域表现优良, 但在复杂背景下难以准确捕获裂纹的位置信息[5]. 近年来, 基于深度学习的基础设施表面裂纹检测方法因能自动学习数据集的有效特征, 从而克服了针对含大量背景噪声的样本检测准确度偏低的问题, 故受到广泛关注. Dung等[6]提出一种基于深度全卷积网络(fully convolutional network, FCN)的裂缝检测方法, 用于混凝土裂缝图像的语义分割; 姜瑾等[7]结合电致发光图像分割与卷积神经网络分类, 提出一种太阳能电池板裂纹检测算法; Dais等[8]通过探究砖石表面裂纹分割,发现基于单一材质的表面裂纹数据集训练模型的泛化能力较差; Alipour等[9]研究了基于深度学习的裂纹检测模型在常见建筑材料领域的自适应性, 认为在特定材质数据集上训练的裂纹检测模型未必适用于其他材料. 针对基于单一材质基础设施表面裂纹训练的模型鲁棒性弱的问题, 本文拟提出一种基于深度学习的双层编解码网络(Double U-Net)模型, 利用其上层U-Net获取丰富的上下文信息, 下层U-Net增强特征信息的利用率, 通过融合上下层网络的特征弥补单层U-Net在检测过程中丢失细节信息的缺陷, 以期提高模型的泛化能力和实现对多种材质基础设施表面裂纹的准确检测.

1 裂纹分割网络模型

1.1 Double U-Net模型

构建如图1所示的Double U-Net模型的网络结构. 该模型采用两层U-Net[10]架构, 其上下支路分别标记为网络1和网络2. 网络1为编解码器中均使用改进的Inception模块和挤压激励网络(squeeze-and-excitation networks, SENet)[11]的U-Net模型, 是Double U-Net的主要特征提取器. 特别地, 网络1的解码器中大小为(224, 224, 32)的特征图像不参与跳跃连接操作,仅与网络2的解码器中分辨率相同的特征图像进行通道特征融合. 网络2是经典U-Net模型, 它由包含3×3卷积层的重复块和上下采样层组成. Double U-Net的实现流程如下: 1) 将大小为(224, 224, 3)的裂纹图像输入网络1,2, 并进行图像压缩、复原和跳跃连接; 2) 利用通道融合方式, 将网络2解码器的特征与网络1中融合后的分辨率大小相同的特征进行融合; 3) 利用Sigmoid函数对网络2的输出进行分类预测. Double U-Net通过融合上下两个U-Net中不同级别的特征,促进模型对于裂纹图像不同尺度语义信息的学习,有效过滤图像背景干扰, 从而提高设施表面裂纹的分割精度.

图1 Double U-Net的网络结构Fig.1 The network structure of Double U-Net

图2 改进的Inception模块Fig.2 The improved Inception block

在网络1中, 首先在编解码器部分引入具有双层并行滤波器的Inception模块来扩展网络深度,每个Inception模块的两个卷积层之间通过不同大小的滤波器节点进行连接. 编码器的滤波器节点分别为(16,32)、(32,64)、(64,128)、(128,256)和(256,512),解码器的节点分别为(512,128)、(256,64)、(128,32)和(64,16). 由于Inception模块的引入会导致模型产生大量参数, 故在原始Inception模块[12]的基础上加以改进(如图2所示), 以非对称卷积核1×5和5×1替换并行滤波器中5×5卷积核, 使得模型参数减少约25%. 其次,在编码器中的池化层和解码器中Inception模块后均引入SENet. 通过压缩与激励操作获取特征通道上的全局感受野和通道间的相关性, 以强化特征提取过程中的目标特征. 最后, 利用跳跃连接机制将网络的高低级特征进行融合, 以减少图像复原过程中细节信息的丢失.

在网络2中, 首先将输入图像在编码器中经过连续4次池化(下采样)和卷积操作, 解码器对编码器的输出再进行连续4次反卷积和卷积操作, 卷积操作表现为重复2次3×3卷积、归一化和激活操作. 其次,网络2中的浅层特征与深层特征通过跳跃连接进行融合的同时,还与网络1解码器中经过跳跃连接后的特征图像进行通道融合, 有效解决了网络1在解码过程中丢失的边缘和局部信息的问题. 最后, 利用Sigmoid激活函数对网络2的输出结果进行分类, 从而获得大小为(224,224,1)的裂纹分割图像.

1.2 损失函数

用于裂纹分割的数据集通常存在严重的类不平衡问题,即裂纹像素占比小于5%,这会导致网络在训练过程中高估自身的学习能力,而习惯性地将裂纹错误地分类为背景. 本文采用加权交叉熵[13](weighted cross entropy, WCE)损失函数, 通过加强少数样本对损失函数的贡献改变少数类别的权重, 从而解决类不平衡问题. WCE损失函数

(1)

1.3 数据集

建立一个包含不同材质的基础设施表面裂纹图像的混合数据集(Dataset 1). Dataset 1共包含4 204组原始裂纹和标签图像, 由混凝土(Dataset 2)[14]、沥青(Dataset 3)[15]和砖石(Dataset 4)[8]等3个公共数据集构成, 其中Dataset 2～4分别包含600,3 364,240组图像. 将Dataset 1～4均按照7∶1∶2的比例划分为模型的训练集、验证集和测试集. 为进一步测试基于不同材质的表面裂纹训练模型的鲁棒性和稳健性, 建立一个测试集(Dataset Test), 其所包含的40张不同基础设施表面的裂纹图像均取自于互联网. 将Dataset Test中全部图像裁剪为224×224像素, 并对其进行二值化处理得到相应的标签图像.

图3为Dataset 1中的3种基础设施表面的裂纹示意图. 由图3可见: 混凝土结构表面平滑, 裂纹形状简单、尺寸相似, 其附近常伴有少量石灰浆点、污渍和落叶等噪声; 沥青道路表面呈颗粒状、凹凸不平,裂纹形状多样,如线形、放射状和网状等, 其附近带有车道线和油渍等噪声; 砖石墙面由砖或石材组成,表面有砂浆接缝,颜色多呈鲜红色,其裂纹缝隙较大、痕迹明显, 且裂纹周围存在较多窗户、门或植被等复杂物体.

图3 不同材质的基础设施表面裂纹图像Fig.3 The crack images of different infrastructure surfaces

2 结果与分析

本文模型运用Python语言开发, 由Keras和Tensorflow框架实现. 实验平台所用计算机配置为RTX2080Ti GPU, 显存为11 GB, 操作系统为Ubuntu 11.2.0. 实验预先设置100轮训练, 使用Adam优化器, 设定学习率为0.000 5, 批量处理的图像数为8. 当加权交叉熵损失函数中β值设为10时可解决砖石表面裂纹的类不平衡问题[8], 故本文损失函数中β取10.

2.1 分割结果评估

将Double U-Net与经典U-Net[10], U-Net-Inception-v1[12]和U-Net-Inception-v2[16]等对比模型在数据集Dataset 1～4上分别进行训练和验证, 选择查全率R、查准率P和F1值F作为评价指标[17]验证Double U-Net的优越性. 对比结果如表1所示, 其中各项指标为所有预测结果的均值,指标值越大, 则模型的分割性能越好. 由表1可见: 1) Double U-Net在4个数据集上均展现出优于其他模型的分割能力; 2) 相较于其他3种分割网络模型, Double U-Net在Dataset 1上预测结果的F1值最高, 表明该模型的误检率和漏检率最低; 3) Double U-Net在Dataset 4上的F1值高于其他模型, 表明Double U-Net处理背景噪声大的裂纹图像效果更显著.

进一步采用交并比(intersection over union, IoU)和骰子相似系数(dice similarity coefficient, DSC)[18]评价预测结果与标签之间的相似度. 表2给出了在Dataset 1上训练的各分割网络模型的IoU和DSC预测结果均值. 由表2可见: Double U-Net模型分割结果的IoU和DSC明显优于其他分割网络,验证了该模型的有效性和合理性.

表1 分割网络模型在数据验证集Dataset 1～4上的检测结果

表2 基于IoU和DSC评价指标的分割网络模型测试结果

表3 嵌入不同Inception模块的Double U-Net的测试结果

在数据集Dataset 1上将改进前后的Inception模块分别嵌入Double U-Net进行训练和测试, 结果如表3所示. 由表3可见: 由于使用了非对称卷积核, 改进后Inception模块的学习参数数目约减少25%, 每轮训练时间减少14 s; 裂纹分割结果的IoU由65.31%提升至65.60%, 说明使用非对称卷积核在减少模型学习参数的同时并未降低模型检测能力.

图4 不同模型在Dataset 1上的裂纹图像分割结果Fig.4 Crack image segmentation results of different methods on Dataset 1

图4为Double U-Net及3种对比模型在Dataset 1上的裂纹分割结果. 由图4可见: 1) 对于裂纹附近带有砂浆、植被和白点等噪声的图像, Double U-Net能够最大程度地减少图像中的冗余信息, 这表明Double U-Net可有效降低背景噪声的影响; 2) Double U-Net模型不仅能明显降低图像中存在的植被、油渍和水管等大面积背景噪声的影响, 还可相对完整地分割出真实裂纹的形状; 3) 在检测光照条件下的砖石墙面裂纹图像过程中, Double U-Net受阴影和砖石颜色变化的影响最小, 分割出的裂纹最接近标签图像. 上述Doble U-Net所具备的分割优势,是由于Double U-Net中两层U-Net的有效结合不仅增强了重要特征的影响度和突出图像的边缘信息, 而且弥补了网络1强化分割特征时导致的精细结构损失, 使得Double U-Net保留更多浅层边缘信息和深层语义信息.

为了检验基于不同材质的设施表面裂纹数据集训练的Double U-Net模型的普适性, 将其与对比模型在新建的混合测试集Dataset Test和Dataset 2～4的测试集上分别进行测试, 结果如表4所示. 由表4可见: 1) 在Dataset Test上, Double U-Net的F1和IoU值最大, 说明Double U-Net分割不同基础设施表面的裂纹时所得裂纹图像最接近标签图像; 2) 无论是在混凝土、沥青还是砖石表面, Double U-Net的F1和IoU值均最大, 说明Double U-Net模型检测单一材质表面的裂纹时仍具有优于对比模型的分割能力; 3) 相对于测试集Dataset 2～3, Double U-Net在测试集Dataset 4上的F1和IoU值提升较大, 这是因为砖石表面的裂纹附近冗余信息较多. 综上, Double U-Net可以有效抑制大面积的背景噪声,提高复杂背景下裂纹分割精度.

图5为各模型的裂纹分割结果. 由图5可见: 1) 对于较平整且纤细的混凝土裂纹, Double U-Net相较于对比模型不仅可较完整地分割出裂纹, 而且能使分割出的裂纹边缘更平滑; 2) 对于裂纹附近伴随有较强背景噪声的混凝土图像, Double U-Net虽不能完全消除干扰, 但其抗干扰能力较对比模型更强; 3) 对于存在阴影的裂纹图像, Double U-Net可有效降低阴影的干扰. Double U-Net优越的分割效果主要是因为Double U-Net将上下两层U-Net有效结合增强了特征信息的利用率, 从而提高了模型的鲁棒性.

2.2 消融实验

通过消融实验逐一消除单个模块并观察其对预测结果的影响, 确定不同模块的重要性, 结果如表5所示. 由表5可知: 1) 对比实验① ②, 引入Inception模块的单层U-Net模型能显著提升裂纹的分割精度, 说明加入改进的Inception模块有利于提高网络的特征提取能力; 2) 对比实验②③, 加入SENet后的IoU值达65.29%, 说明通过引入SENet学习重要特征可以使分割出的裂纹的位置信息更加准确; 3) 对比实验③④, 引入网络2后的IoU值得到一定提升, 说明双层U-Net能够弥补单层U-Net丢失局部特征信息的缺陷; 4) 嵌入了所有模块的Double U-Net的IoU值最大, 说明Double U-Net模型是通过各个模块的共同作用实现模型分割性能的整体提高.

表4 各模型在不同测试集上的测试指标结果

图5 对比模型在Dataset Test上的裂纹分割结果Fig.5 Crack segmentation results of contrast methods on Dataset Test sets

表5 具有不同模块的模型分割结果

3 结论

为了有效检测不同材质的基础设施表面裂纹, 本文构建了一种基于编解码器的Double U-Net网络模型. 该模型首先利用网络1学习图像中的复杂特征, 然后利用网络2将两个网络提取到的特征进行融合, 最后通过激活函数对网络2的输出结果进行分类, 从而获得预测的裂纹分割图像. 在相同的参数设置下, Double U-Net的F和IoU分别达78.70%和65.60%, 明显高于其他对比模型相应的指标值, 验证了该网络模型的合理性和有效性.