基于改进Unet模型的混凝土裂缝分割研究

2024-04-11潘远周双喜杨丹

华东交通大学学报 2024年1期

潘远周双喜杨丹

摘要：【目的】针对桥梁、隧道等环境下产生的混凝土裂缝情况复杂、干扰因素多的问题，提出一种改进Unet模型（A-Unet）的裂缝检测方法。【方法】以Unet网络为基础，研究了编码器的深度如何影响模型训练时间、检测精度。在解码过程中设计一种融合空间和通道注意力模块，将高分辨率的浅层特征与上采样获得的深层特征信息赋予不同权重，进一步增强裂缝特征。同时，增加dice损失函数对模型进行评价，减少因检测目标与背景数量相差较大，导致评价不准确的问题。【结果】在测试数据集中进行评价，精确度，MIou，召回率分别达到94.70%，86.16%，91.34%。A-Unet模型检测效果明显优于其他5种模型。【结论】利用该方法检测混凝土裂缝精度得到较大提升，且节约了模型训练时间，提高检测效率。

关键词：混凝土裂缝；深度学习；注意力机制；裂缝识别；语义分割

中图分类号：TU528 文献标志码：A

本文引用格式：潘远，周双喜，杨丹. 基于改进Unet模型的混凝土裂缝分割研究[J]. 华东交通大学学报，2024，41（1）：11-19.

Research on Concrete Crack Segmentation Based on

Improved Unet Model

Pan Yuan1，2， Zhou Shuangxi2， Yang Dan2

（1. School of Transportation and Logistics， East China Jiaotong University， Nanchang 330013， China;

2. School of Civil Engineering and Architecture， East China Jiaotong University， Nanchang 330013， China）

Abstract：【Objective】A crack detection method based on improved Unet model （A-Unet） is proposed to solve the problems of complex concrete cracks and many interference factors in bridges， tunnels and other environments. 【Method】Firstly， Unet-based network， how the deep of the encoder affects the training time and detection accuracy of the model is studied. Secondly， in the decoder process， a fusion space and channel attention module is designed to give different weights to the high-resolution shallow features and the deep feature information obtained from the up-sampling to further enhance the crack features. At the same time， the dice loss function is added to evaluate the model to reduce the problem of inaccurate evaluation caused by the large difference between the number of detected objects and the background.【Result】 The proposed method was evaluated in the test data set， the Precision， MIou and Recall rate reached 94.70%， 86.16% and 91.34% respectively. Also， the detection effect of A-Unet model is significantly better than the other five models.【Conclusion】The results show that the accuracy of concrete crack detection by this method is greatly improved， and the model training time is saved， and the detection efficiency is improved.

Key words： concrete crack; deep learning; attention mechanism; crack identification; segmentation

Citation format：PAN Y， ZHOU S X， YANG D. Research on concrete crack segmentation based on improved unet model[J]. Journal of East China Jiaotong University， 2024， 41（1）： 11-19.

【研究意義】混凝土裂缝在任何建筑结构中出现都可能导致重大安全事故，对混凝土裂缝进行有效的检测具有重要意义。传统的裂缝检测方法主要是人工检测，该方法存在耗时长、精度低且对专业技术人员的要求较高，对于建筑结构大、时间紧的工程难以满足需求。为了寻找更有效的裂缝识别方法，早期一些学者们提出了图像处理的检测方法，主要有直方图、边缘算法、阈值分割、小波变换[1-3]。这些方法通过对裂缝图像处理获取裂缝的位置、宽度，不仅可以降低对专业技术人员的专业要求，而且可以提高检测效率。然而，这些方法仍存在不足，对裂缝环境复杂地区的识别度仍然不够。

【研究进展】人工智能的迅速发展为混凝土裂缝的自动识别提供新方向。其中，基于卷积神经网络的深度学习在裂缝识别领域中得到广泛应用[4-7]。如大坝裂缝检测[8-9]、桥梁裂缝检测[10]、隧道裂缝检测[11-12]、路面裂缝检测[13]等。Unet作为优秀的网络模型被广泛关注，它是一种Encode-Decode结构的网络，Unet模型中的编码器可以结合实际应用选择不同的网络。编码器可从混凝土数据中提取主干特征，它类似于卷积神经网络。因而，拥有良好的编码器可以较大提升裂缝识别精度。通常将经典卷积网络作为Unet模型的编码器如：VGG[14]、Mobilenet[15]、ResNet[16]等网络。丁威等[17]构建了基于深度学习与无人机的混凝土裂缝检测方法，进行多尺度特征融合对多种裂缝分割，分割误差小于5%。

【创新特色】本文以经典Unet网络模型为基础，提出一种改进的Unet网络模型（advances Unet，A-Unet）。通过编码器的选择和添加注意力机制两方面的优化，提高裂缝特征的识别能力，在有效抑制干扰的同时提高裂缝识别的精度和效率。【关键问题】用于完成其他任务的优秀模型不能完全适用于复杂环境下的裂缝检测。优秀模型的结构深度及参数量可能导致裂缝识别性能的不足或冗余。因此，根据检查任务来选择合适的网络深度是一个挑战。

1 研究方法

基础Unet网络模型最早用于细胞检测，该网络可能并不完全适用于裂缝检测。为了选择具有高检测精度和速度的最佳模型，提出适用于混凝土裂缝检测的Unet网络模型。A-Unet框架通过添加残差模块及模型深度、解码器中添加注意力模块两部分改进。A-Unet网络应用于混凝土裂缝识别的流程如图1所示。对裂缝图像数据进行预处理主要包括：数据获取、数据裁剪、数据直方图均衡化及人工标记数据；获取A-Unet模型参数，主要包括：训练数据集进行迁移学习[18]，获取混凝土目标参数，验证数据集对目标参数进行微调；利用训练得到的目标参数进行混凝土图像语义分割，并对模型进行评价。

1.1 A-Unet网络结构

Unet网络通过编码器-解码器实现裂缝识别端到端的语义分割，编码器主要通过卷积实现特征提取，该编码器提取特征信息不全且易造成过拟合现象，导致目标分割不准确。将浅层特征与解码过程提取的深层特征直接进行叠加，该操作的缺陷在于进行叠加的两个特征层置于同等地位，导致目标分割精度低、边缘模糊。针对Unet存在的不足，将残差模块引入编码器中，并在解码过程中对浅层特征添加注意力模块，得到A-Unet网络（图2）。A-Unet是一个U型网络，从左到右依次分为编码过程，跳跃连接，解码过程三部分。编码过程从上到下共有5个阶段，每个阶段由卷积网络、残差模块、批归一化层、Relu激活函数及大小为2×2的最大池化层组成。解码过程共有5个阶段，每个阶段包含2个3×3的卷积网络、1次叠加层、注意力模块。

该注意力模块融合通道（channel）和空间（spatial）两维度的注意力模块，融合注意力机制（简称CS）较大程度上降低了各种干扰因素，提高裂缝特征在模型中的权重。如图3所示，首先，在编码器中提取的5个裂缝特征层中分别添加通道注意力，提高与裂缝特征相关的通道权重，降低与裂缝特征无关的通道权重。下一次模型训练时，将更多关注权重大的通道，进一步提取深层次裂缝特征。然后，在5个裂缝特征层中分别添加空间注意力，提高与裂缝特征相关的空间位置权重，降低与裂缝特征无关的空间权重，进一步提取深层次裂缝特征。最后，将通道注意力获取的裂缝特征与空间注意力获取的裂缝特征融合，获取多方位的特征。其中，特征图F、P、M、Q表示不同提取阶段获取的特征图。特征图中的H，W，C分别代表高度，宽度，长度。

1）通道注意力。假设浅层裂缝特征图为F，对F进行全局平均池化，同时进行格式转化维度為1×1×C的特征图P（其中C为通道数）。之后进行两次全连接，一次Sigmoid函数将特征范围锁定在[0，1]，即每个通道的权值大小。最后，将获得的权值大小乘上特征图F，生成特征图M实现对浅层特征图添加通道注意力机制。

2）空间注意力。首先在特征图F上每个特征点所在通道中分别取出最大值和平均值，生成最大值特征图和平均值特征图。其次，将这两个特征图进行叠加之后进行一次通道数为1的卷积，使用一次Sigmoid函数。最后，将获得的权值大小乘上特征图F，生成特征图N实现对浅层特征图添加空间注意力机制。

3）叠加。将特征图M和特征图N进行叠加，生成特征图Q。特征图Q具有通道和空间两部分的权重分布，因此获得了多方位的特征，能更好地侧重目标区域，忽略各种干扰。

2 结果与讨论

2.1 数据集制作

钢筋混凝土常年裸露于室外，钢筋混凝土裂缝环境复杂，通常伴随着其他缺陷，如腐蚀、锈蚀等影响。本文自制钢纤维混凝土试块并在裂缝周围模拟2种缺陷，一种缺陷为数字（number）、另一种缺陷为单词（vocabulary）。首先，制作混凝土试块。试验原材料分别为：P·O42.5普通水泥、5～20 mm碎石、中砂、减水剂、平直型镀铜钢纤维等。将制作好的混凝土试块加载不同大小、方向的荷载，从而获取不同大小、方向的裂缝。有些裂缝细且长，有些裂缝宽度较大但形状及裂缝边缘更粗糙，如图4。其次，对获取的混凝土试块，进行图像裁剪。原始图像大部分为背景，在图像处理过程中不仅无作用且耗费大量模型训练时间，对原始图像进行裁剪，图像大小剪裁为512×512×3大小。本试验共制作116个大小为100×100×400 mm3棱柱试块，基于迁移学习进行裂缝参数调整，不需要大量训练图像。获取的116张图像，其中90图像数据作为训练及验证集，26张图像作为测试集。

由于钢筋混凝土图像的整体亮度都偏暗，而且由于钢筋混凝土图像的整体亮度都偏暗，而直方图均衡化可以扩展亮度从而调整对比度，对于目标和背景像素值相近的图像效果显著。对图像数据输入网络模型前，先对图像进行直方图均衡化凸显裂缝的局部特征。图6（a）为经过直方图均衡化后的图像。由图可知，原始裂缝图像中的裂缝灰度值虽然比背景要暗很多，但是区别没有特别明显。而图5（a）中预处理后图像中的裂缝与背景的差异增大，裂缝呈黑色，而背景仍然比较亮，说明预处理图像对裂缝识别有增强作用。同时，RGB三个波段（图5、图6）预处理后的灰度直方图都发生了变化，因此对其直方图进行均衡处理，可增强细节信息表达。最后，对增强后的数据使用Labelme软件进行标签制作，如图7所示。

2.2 试验参数设置

本研究在同一台计算机上完成网络模型的训练、测试。计算机配置为：AMD锐龙73800X处理器，NVIDIA GeForce RTX 2060显卡。环境配置如下：Python 3.6，CUDA 10.1，Tensorflow 2.2.0。在训练过程中，数据样本的90%进行训练，并将90%数据样本进行验证。采用Voc数据集在Unet模型中得到的训练权重作为训练权重，即迁移学习。为加快训练速度，初始训练时设置一个较大的学习率0.0 001，随着迭代次数的增加，损失函数趋于平稳后学习率改为0.00 001。优化器为Adam，momentum设置为0.9。每个模型样本迭代100次，损失值趋于平稳。

2.3 精度评价指标

对于语义分割任务，交并比（MIoU）、召回率（Recall）、精確率（Precision）3个指标来评价分割结果。交并比是指裂缝的真实像元数和预测像元数相交并的比值。召回率是指样本中裂缝的像元数有多少被预测出来。精确率是指预测为裂缝的像元占总裂缝像元的比值。PT（true positive）是指将目标检测为正确目标的像元数；PF（false positive）是指将背景检测为目标的像元数；NF（false negative）是指将目标检测为其他目标的像元数；NT（true negative）是指将背景预测为背景的像元数，计算公式见表1。

2.4 试验结果

2.4.1 网络深度试验

编码器的深浅直接影响特征提取，对残差模块引入的数量进行讨论，在编码器中分别添加残差模块Res36、Res48、Res99、Res138进行对比，其中数字代表残差模块的个数。图8显示了4种不同深度网络模型的损失曲线。基于迁移学习的权重，在前几次迭代中损失值较大，为更好显示整个损失曲线的趋势，去除前10次迭代的损失值。4种网络模型的训练损失曲线经过几十个世代后都趋于平稳，损失值基本都趋近于0，说明4种网络对混凝土裂缝训练都取得较好的效果（图8）。Unet-Res36、Unet-Res138损失值在迭代50次左右都出现不同深度的波动，随后验证损失曲线又趋于平稳并接近0。然而，Unet-Res36和Unet-Res48验证曲线较为平稳且损失值一直处于较低水平，相比其他2种网络模型，Unet-Res36和Unet-Res48网络模型的损失曲线表现较佳。

图9总结了4种深度网络模型精度指标。随着网络深度的增加，MIou值由82.21%首先增加到84.29%后略微下降到83.53%及83.63%。Accuracy值由93.41%先增加到94.42%后降低到92.59%。Recall值在4种网络模型中并没有明显变化，大致上呈现网络深度越深Recall值越大，在Unet-Res138时为最大值89.19%。通过对比3种精度评价指标可以发现，Unet-Res48在MIou和Precision这两个指标中的精度表现最佳，Recall表现略逊于Unet-Res138网络，降低0.49%（图9（a））。所有的网络模型都能较好地识别各类缺陷，Crack识别精度最高达到95%。对于所有缺陷，Unet-Res48网络模型的识别精度都等于或优于其他3种网络模型（图9（b））。总体而言，Unet-Res48网络模型的综合表现最佳。综合考虑分析可知，网络模型对裂缝的识别并不是深度越深越好，而是在一定范围内取得最佳识别效果。

Unet-Res36由于残差网络较浅，在提取目标特征的能力不足，错检、漏检目标较多，如图10所示，随着网络残差网络的加深（图10（c）、图10（d）），Unet-Res48及Unet-Res99模型提取目标特征的能力不断增强，目标检测的准确度得到较大改善。其中，微小裂缝在一定程度上也被精确识别。然而，进一步增加网络深度并未提高目标识别精度，相反检测精度下降，出现漏检、错检的情况（图10（e））。由图9图10可知，残差网络对混凝土裂缝的识别能力并不是层次越多识别效果越好。出现这种情况的原因可能是裂缝本身的图像特征较明显且与背景差异性较大，因此不需要过度提取裂缝特征。如果过于注重深层次裂缝特征提取，反而会导致特征不明显导致识别精度有所下降。通过试验分析可知，Res48、Res99的网络深度最适合裂缝特征提取作为Unet网络的编码器。

2.4.2 注意力机制对比试验

选取最佳编码器后，在Unet网络上采样层分别添加CS注意力机制，取名为A-Unet。由于编码器的深度不同，为便于区分在A-Unet末尾加上网络的层数，如A-Unet48代表编码器为Res48的网络。为更好地比较注意力模型对混凝土裂缝识别的影响，在Unet-Res模型基础上，对不同深度网络分别添加常用的通道注意力机制eca及空间注意力机制cbam进行对比试验，从而验证CS模块的有效性。

图11显示了添加不同注意力机制后各网络模型的精度图。添加了注意力模块的网络模型对目标的识别综合精度比未添加注意力模块的网络模型的综合精度普遍更高（图11）。除了Unet-Res99-eca、Unet-Res138-cbam网络模型的综合精度比Unet-Res99、Unet-Res138略低，说明添加注意力机制对目标识别有所助益。另外，所有添加了CS注意力模块的网络精度都相应的比未添加注意力模块或添加其他注意力模块的网络精度要高，表明结合通道和空间注意力机制能更好地提取目标物。通过对比网络模型可知A-Unet99的综合精度评价分值最高，说明A-Unet99对混凝土裂缝识别效果最佳。而A-Unet48的综合精度值排在第2位，综合精度略低于A-Unet99，这与前述使用Res48残差网络作为编码器为最优有些冲突。可能的原因是添加注意力机制后，编码器能更好地将空间、通道之间的裂缝特征紧密联系在一起。因此，相应的增加网络深度可以适当的提高识别精度。

图12显示了以Res99为编码器，添加各注意力模块的预测结果。A-Unet99具有较高的检测精度，误检、漏检的现象肉眼很难分辨出，其他网络存在多处误检、漏检现象。其中，Unet-Res99-cbam表现最差，只添加空间注意力模块不能提高检测精度，反而混淆了目标和背景，说明添加注意力模块时需要针对具体任务选择合适的注意力模块。

2.4.3 A-Unet网络模型对比试验

为更好的评估A-Unet网络模型，在保证环境配置与训练数据集不变时，分别采用Unet-VGG16、Deeplabv3+、Mask-R-CNN、PSPnet、T-M-R-CNN[17]5种语义分割模型与本文A-Unet48、A-Unet99模型进行对比。由表2可知，A-Unet48、A-Unet99模型的精度比其他模型的精度高出许多，A-Unet99的精度比Deeplabv3+的精度高达16.22%，比T-M-R-CNN的精度高出3.39%，说明A-Unet网络模型能更好地提取裂缝特征。

对比参数训练时间可知Deeplabv3+、pspnet训练时间最短，但它们的识别精度较低，其他网络训练时间都比A-Unet的参数训练时间要长。其中，T-M-R-CNN识别精度为91.31%，但是所需的训练时长为896 min，训练时间紧较长。A-Unet48、A-Unet99网络所需的训练时间仅为331，357 min，在大大减少训练时长的情况下，识别精度最佳。试验说明，A-Unet网络在效率及精确度两方面表现突出。

3 结论

1）随着编码器网络的加深，模型的性能先得到一定的提升，随后性能下降。

2）添加融合注意力模块的A-Unet模型总体性能得到提升，最高精度达到94.7%。

3）与其他方法相比，用于训练模型的训练时间、迭代次数更少、检测精度更高。

参考文献：

[1] KIRSCHKE K R， VELINSKY S A. Histogram-based approach for automated pavement-crack sensing[J]. Journal of Transportation Engineering， 1992， 118（5）： 700.

[2] ABDEL Q I， ABUDAYYEH O， KELLY M E. Analysis of edge-detection techniques for crack identification in bridges[J]. Journal of Computing in Civil Engineering， 2003， 17（4）： 255-263.

[3] ZHANG D S. Wavelet transform[J]. Fundamentals of Image Data Mining， 2019， 49（5）： 35-44.

[4] ELLENBERG A， KONTSONS A， MOON F， et al. Bridge related damage quantification using unmanned aerial vehicle imagery[J].Structural Control & Health Monitoring， 2016， 23（9）：1168-1179.

[5] ZHANG Q Y， BARRI K， BABANAJAD S K， et al. Real-time detection of cracks on concrete bridge decks using deep learning in the frequency domain[J]. Engineering， 2020， 7（12）： 1786-1796.

[6] SHARMA M， ANOTAIPAIBOON W， CHAIYASARN K. Concrete crack detection using the integration of convolutional neural network and support vector machine[J]. Science & Technology Asia， 23（2）， 19-28.

[7] 楊传礼，张修庆. 基于机器视觉和深度学习的材料缺陷检测应用综述[J]. 材料导报， 2022， 36（16）： 226-234.

YANG C H， ZHANG X Q. Survey of applications of material defect detection based on machine vision and deep learning[J].Materials Reports， 2022， 36（16）： 226-234.

[8] 王泽矫，张起睿，方冬冬，等. 基于深度学习的大坝裂缝检测方法研究[J]. 水利规划与设计， 2022（1）： 90-94.

WANG Z J， ZHANG Q R， FANG D D， et al. Research on dam crack detection method based on deep learning[J]. Water Resources Planning and Design， 2022（1）： 90-94.

[9] FAN X N， CAO P F， SHI P F. An underwater dam crack image segmentation method based on multi-level adversarial transfer learning[J]. Neuro Computing， 2022， 505： 19-29.

[10] LI G， ZHOU J， LIU D， et al. Pixel-level bridge crack detection using a deep fusion about recurrent residual convolution and context encoder network-science direct[J]. Measurement， 2021， 176： 109171.

[11] SONG Q，WU Y Q， XIN X S， et al. Real-time tunnel crack analysis system via deep learning[J]. IEEE Access， 2019， 7： 64186-64197.

[12] ZHOU Q， QU Z， LI Y X. Tunnel crack detection with linear seam based on mixed attention and multiscale feature fusion[J]. IEEE Transactions on Instrumentation and Measurement， 2022， 71： 1-11.

[13] HU G X， HU B L， YANG Z， et al. Pavement crack detection method based on deep learning models[J]. Wireless Communications and Mobile Computing， 2021（1）： 1-13.

[14] MATEEN M， WEN J H， NASRULLAH， et al. Fundus image classification using VGG-19 architecture with PCA and SVD[J]. Symmetry， 2018， 11（1）： 1-12.

[15] SRINIVASU P N， SIVASAI J G， IJAZ M F， et al. Classification of skin disease using deep learning neural networks with mobile Net V2 and LSTM[J]. Sensors， 2021， 21（8）：2852.

[16] SARWINDA D，BUSTAMAM A， ANGGIA P. Deep learning in image classification using residual network（ResNet） variants for detection of colorectal cancer[J]. Procedia Computer Science， 2021， 179： 423-431.

[17] 丁威，俞珂，舒江鹏. 基于深度学习和无人机的混凝土结构裂缝检测方法[J]. 土木工程学报， 2021， 54（S1）： 1-12.

DING W， YU K， SHU J P. Method for detecting cracks in concrete structures based on deep learning and UAV[J].China Civil Engineering Journal， 2021， 54 （S1）： 1-12.

[18] 张永志，辛全忠，王永亮，等. 基于迁移学习的钢金相组织分类与识别方法的研究[J]. 材料导报， 2021， 35（24）： 24152-24157.

ZHANG Y Z， XIN Q Z， WANG Y L， et al. Research on classification and recognition method of steel metallographic structure based on transfer learning[J].Materials Reports， 2021， 35（24）： 24152-24157.

第一作者：潘遠（1987—），女，助理实验师，博士研究生，研究方向为混凝土材料与检测技术。E-mail：yuanpan227@126.com。

通信作者：周双喜（1973—），男，教授，博士，博士生导师，南昌市521学术技术带头人，研究方向为混凝土材料与检测技术研究。E-mail：green.55@163.com。