基于深度学习的土木工程计算机视觉健康监测

2024-03-04于盛鑫李永刚贾王龙杨鹏博杨欣悦

同济大学学报（自然科学版） 2024年2期

方成，于盛鑫，李永刚，贾王龙，杨鹏博，杨欣悦

（1. 同济大学土木工程学院，上海 200092；2. 中国二十二冶集团有限公司，河北唐山 064000）

随着基础项目建设的高速发展，工业民用建筑进入了饱和期和维护期。一方面，建筑结构在长期荷载、环境腐蚀、材料变形和疲劳破坏等因素的耦合作用下出现大量的损伤破坏。另一方面，结构在强台风、海啸、破坏性地震等偶发环境外力作用下将发生不同程度的破坏及倒塌。因此，在工业智能化时代，如何利用人工智能技术来高效地辅助土木工程建设全生命周期中涉及到的施工安全管理、结构损伤检测及结构重大灾后整体评估等任务一直是学者们不断探索的课题。本文旨在对现有基于深度学习算法的计算机视觉技术在土木工程建设全生命周期中的研究和应用进行针对性总结与归纳，通过进一步分析各检测体系中所涉及算法的共性问题，从探索深度学习算法可以完成的计算机视觉任务开始，到挖掘出更丰富的可以应用的工程领域，从而实现从算法微观层面到构建整体检测体系的宏观层面的飞跃，助力人工智能新成果更好地辅助土木工程领域任务。

1 文献检索与分析

为了系统地识别和分析近年来基于深度学习的计算机视觉技术在土木工程建设全生命周期中的应用，本研究选择Web of Science作为检索文章的数据源，通过设置包括“土木工程”且“深度学习”且“计算机视觉”或“结构健康监测”或“结构表面损伤”或“施工安全”或“震后损伤评估”或“灾后影像识别” 的关键词或主题，设置跨度为2015 年1 月至2022 年5 月的发文时间，在剔除不相关文献后，选择使用271篇文献进行分析，文献出版时间分布如图1所示。

图1 文献出版时间分布Fig. 1 Distribution of publication time of literature

本研究基于Citespace［1］进行了关键词分析，绘制了本研究领域的高频、高中介中心性关键词排序表格，见表1。可以看出，“deep learning”和“computer vision”位居频率排名的前两名，说明所检索文章较好地反映了基于深度学习的土木工程计算机视觉技术研究；结合高中心性，可以看出“convolutional neural network”与多个研究对象关联紧密，说明其在本研究领域具有重要意义。

表1 关键词排名Tab. 1 Ranking of keywords

2 计算机视觉技术简介

计算机视觉技术旨在助力计算机使用算法来理解数字图像和视频并提取有用的信息，重点在于图像数据的特征设计，包括提取特征点、边缘和轮廓等数据特征。最初的特征设计是基于人工实现的，例如，尺度不变特征变换算法实现了显著稳定的图像特征点检测，可有效用于图片匹配；方向梯度直方图算法对图像的几何和光学形变具有良好的不变性，通过与支持向量机分类器结合广泛应用于图像识别中，可实现实时性检测。随着互联网技术的发展以及便携式电子设备的出现，大量图片数据资源被获取，人工特征设计技术衍生成了成熟的数据集图像处理技术，包括降噪、傅利叶变换等，主要负责图像压缩、增强复原和匹配识别三大任务。此外，机器学习在快速发展后被广泛应用于图像识别、结构优化［2］、自然语言处理等多个领域。由此，基于机器学习的计算机视觉技术在健康监测等领域得到迅速应用与发展。

为解决一般机器学习算法效率低、精度不足等问题，有学者提出基于深度学习卷积神经网络（CNN）［3］的计算机视觉技术，其具有卓越的学习能力、广泛的覆盖范围和良好的适应性等优势。表2列举了与计算机视觉相关的常用深度神经网络。通过与深度神经网络相结合，计算机视觉技术的识别精度得到了大幅提升，应用场景也快速扩展，在图像分类、目标检测、语义分割和实例分割任务中发挥重要作用。

表2 与计算机视觉相关的深度神经网络分类Tab. 2 Classification of deep neural networks related to computer vision

3 深度学习数据集的构建

创建高质量数据集对提高算法训练效率和学习泛化能力具有重要意义。本节将介绍常用的数据获取手段、数据处理技术以及数据标注方式。

3.1 数据获取

通常将深度学习样本分成训练集、验证集和测试集三部分。训练集用于训练神经网络学习特定特征；验证集用于对网络训练结果进行验证，确定网络参数和最终模型；测试集则用于评估算法的运行状况及检测性能。目前常用的数据获取方法有人工收集、虚拟合成、网络爬取、对抗生成等，它们可在一定程度上解决深度学习模型训练效果不佳以及学习泛化能力不足等问题。

3.2 数据处理

除了通过增加新样本来扩充训练集样本数量外，图像处理技术也可增强图像包含的数据信息。例如，通过噪声消除等方法可进一步优化图像对环境变化的鲁棒性，此外，图像处理算法还能减少分辨率差异，优化模型对特征的提取能力和检测性能［4］。近年来深度学习模型的应用也从二维扩展到三维，实现了扩充数据的目的。以上方法对提升数据驱动型深度学习算法的训练效果和检测性能至关重要。

3.3 数据标注

为了将数据集中目标对象的位置和像素等信息转化为计算机所能理解的语言，数据标注的过程是必不可少的。目前常用的标注工具大多源自Github，其功能几乎覆盖了训练深度学习模型所需要的全部数据标注方法。除此之外，各大科技公司也相继开发出了支持人机协作自动化数据标注及人工矫正的云平台。表3 介绍了常用的标注工具，列举了典型的标注类型和文件导出格式，以便于实际应用。

表3 常用的标注工具及其特点Tab. 3 Common annotation tools and their features

4 基于深度学习的计算机视觉技术在土木工程中的应用

基于深度学习的计算机视觉技术在土木工程结构建设全生命周期中均有广泛而丰富的应用，从对建造施工现场的危险把控和识别，到对结构投入使用过程中的结构连接安全性检测以及结构表面典型缺陷检测，到对老化结构的健康状况监测以及灾后建筑物倒塌检测评估等。

4.1 施工现场安全管理

基于深度学习的计算机视觉技术在施工现场安全管理中的应用包括施工人员安全、设备安全以及进度管理。

（1）施工人员安全监测

正确合理佩戴个人防护装备是施工人员预防危险的重要举措，利用深度学习目标检测技术可以检测工人的状况及潜在安全隐患。以安全帽检测为例，已有研究成功实现工人安全帽佩戴检测［5-6］，通过构建高质量数据集，可显著提高防护设备检测效率［7］，实现施工场景中人与物的识别［8-9］。此外，计算机视觉技术在工人活动识别领域也取得较大的进展，研究相继解决了运动传感器布置和混合不安全行为检测［10］等问题，实现了工人活动模式定义［11］和行为解释，使施工人员安全管理更为先进高效。表4列举了施工人员安全监测任务中使用的多种技术方法，包括工人防护设备检测、潜在环境安全因素检测及工人不安全行为识别和解释等。

表4 施工人员安全监测方面各方法评价Tab. 4 Evaluation of construction personnel safety monitoring methods

（2）施工设备安全监测

施工现场常有大型工程设备，一旦发生不规范设备操作便极易引发安全事故，因此针对工程设备的监测尤为重要。

表5列举了该监测任务中多种常见的基于深度学习的计算机视觉技术方法，首先解决了工程设备实时检测问题［12］，并陆续提高了检测精度［13］，但仍存在遮挡、无法验证距离测量精度等问题［14］。为此，Zeng 等［15］基于改进的YOLO v3 算法实现了对远场视频工程设备的实时多尺度检测与定位，图2 展示了该研究中各种检测方法关键性能指标的比较。图中，R-FCN 表示基于区域的全卷积网络，Faster RCNN 表示更快的区域卷积神经网络。结果表明改进的YOLO v3 较Faster R-CNN、RetinaNet 以及RFCN 在检测速度、精度和鲁棒性方面都得到了显著的提升。值得一提的是，基于深度学习的目标检测算法在设备和工人之间交互行为的安全性检测中也具备突出优势，例如，可实时监控工人与设备之间潜在的碰撞、判断设备与工人在空间中的接近度以及量化发生交互行为时工人的安全水平等。

表5 施工设备安全监测方面各方法评价Tab. 5 Evaluation of construction equipment safety monitoring methods

图2 各类工程设备检测方法的性能比较［15］Fig. 2 Performance comparison of various testing methods for engineering equipment

（3）施工进度管理

施工进度管理是维持施工秩序、规范建筑活动及控制风险的重要方法，其关键是设备活动识别。表6列举了施工进度管理任务中常见的计算机视觉技术方法。将 CNN 和长短期记忆网络（LSTM）结合可实现基本的设备活动识别，在此基础上增加检测、跟踪和分类网络，可以实现长视频中工程设备活动及生产力的评估与分析［16］，确保更安全的施工操作［17］、更有效的人力资源配置［18］以及更高效的施工监管［19］。此外，自动化施工场景分析也是基于深度学习的计算机视觉技术重要应用领域，将场景分析技术用于安全管理中，可以更清晰地反映当前施工场景的含义［20］，以便施工进度管理。

表6 施工进度管理方面各方法评价Tab. 6 Evaluation of construction schedule management methods

从本节可以看出，目前研究局限于单次解决某个或几个对象特征自动识别的问题，而没有从整体上实现施工现场安全管理中多任务场景内动态关联，从而达到高效的信息获取与分析。未来可以引入视频结构化技术，通过汇聚全量施工现场视频场景记录，在连续帧中检测和关联相同对象来实现动态关联网络，进一步提高检测能力，实现对所获信息的高效利用。

4.2 在役结构损伤检测

基于深度学习的计算机视觉技术在土木工程结构服役时的局部损伤检测中已发挥出积极作用，检测任务主要分为结构连接安全性检测和结构表面典型损伤检测。

（1）结构连接安全性检测

焊缝连接是钢结构、组合结构中常用的连接形式，控制焊缝质量是确保构件连接安全的重点，表7列举了多种焊缝缺陷识别计算机视觉技术方法。常用的焊缝缺陷检测多使用普通焊缝图像数据集［21］，这往往会增加识别成本，影响识别效率。为此学者们提出了利用X射线焊缝图像获得理想数据集的思路［22］，在该基础上结合图像增强技术提高了焊缝缺陷检测效率［23］。此外，有学者提出更为先进的算法，对缺陷种类进行细分或利用分类器进行精细化缺陷识别，解决了小数据集下网络泛化性能差的问题［24］并满足了焊缝缺陷实时检测要求［25］。

表7 焊缝缺陷识别各方法评价Tab. 7 Evaluation of weld defect identification methods

螺栓连接是另一种常用的结构连接方式，具有连接方便、可靠性强等优点，但螺栓松动、锈蚀和缺失会产生一系列安全隐患。以螺杆伸长为兴趣指标，有学者基于深度学习的计算机视觉技术实现了对螺杆伸长的实时检测，在此基础上，Yuan 等［26］实现了对螺栓松动近实时地识别、分类、分割和计数。但基于螺杆伸长的方法来检测螺栓初期松动是困难的，为此，有学者结合霍夫线性变换算法实现了任意角度下螺栓微小松动的检测［27］，进一步实现了螺栓松动角度的量化［28］。为了提高深度学习模型的检测效率和特征感知能力，Yang［29］、Zhang［30］等利用一些新的检测算法框架完成螺栓连接微小松动、缺失以及损坏等结构连接安全性检测任务。表8列举了螺栓松动自动识别相关技术方法。

表8 螺栓松动识别各方法评价Tab. 8 Evaluation of bolt loosening identification methods

（2）结构表面典型损伤检测

在结构服役期内，裂缝被认为是结构表面损伤中最普遍的破坏类型之一。近年来，已有多种经典的神经网络模型被迁移应用于裂纹检测，如：AlexNet［31］、GoogLeNet［32］、ResNet［33］、Faster R-CNN和U-Net［34］等。此外，有学者开发了新的深度学习网络架构［35］，显著提高了裂纹检测性能。针对图像数据质量影响检测性能的问题，有研究提出了两阶段联合迁移学习方法［36］，解决了强环境背景推断条件下的裂纹识别问题，也有研究结合图像生成算法，克服了缺乏裂纹标记图像的缺点。裂纹自动检测技术也可迁移应用到其余表面损伤检测中，同时实现多种缺陷的损伤检测，如：锈蚀、钢筋裸露、混凝土剥落定位检测等［37］。表9列举了多种结构表面典型损伤自动检测技术方法。

表9 结构表面典型损伤检测各方法评价Tab. 9 Evaluation of typical damage detection methods for structural surfaces

近年来，相关研究学者提出了基于深度学习的三维重建技术，该技术现已在土木工程结构损伤检测领域得到了快速发展与应用。Zhang 等［38］提出了一种基于卷积神经网络的CrackNet，可实现三维裂缝像素级别的自动检测，在此基础上有学者提出了CrackNet II［39］、CrackDN等衍生类架构，取得了更好的整体性能。此外，三维重建在生成密集点云方面具有突出优势，其可在建筑立面缺陷、路面裂缝检测、建筑拆除碎片体积评估等方面发挥重要作用［40］。对于桥梁工程结构而言，三维重建技术已发展为可集成小型无人机、移动机器人平台来生成桥梁三维模型的状态管理系统，在此基础上，已有学者结合同步定位和映射方法（SLAM）实现了三维层面上桥梁损伤自动检测和量化［41］。此外，三维损伤数据还可与桥梁建筑信息模型（BIM）的缺陷对应［42］。表10列举了一般土木工程结构三维损伤自动检测技术方法。

表10 一般土木工程结构三维损伤检测各方法评价Tab. 10 Evaluation of 3D damage detection methods for general civil engineering structures

本节主要总结了近年来在役结构损伤检测中基于深度学习的计算机视觉技术的应用，可以看出，目前研究缺乏具有可靠文本信息或可视化图像的损伤自动评价体系。未来可考虑集成损伤分析，进一步组织成可供计算机和人理解的可靠文本信息或可视化图形信息，实现“输入图像+输出图文报告”的机制，以提供更多的信息解释和趋势判断能力。

4.3 灾后结构损伤评估

灾后建筑物倒塌损坏识别是实现快速救援及合理重建的关键。随着光学成像、合成孔径雷达等遥感技术的迅速发展及应用，基于深度学习的计算机视觉技术被广泛用于评估灾后建筑物的破坏情况。

（1）基于卫星影像识别

以卷积神经网络为代表的深度学习算法被广泛应用于灾后卫星影像物体检测和识别，基于CNN框架将卫星遥感图像用于场景分类是可行的，在此基础上，有学者依靠特征提取后处理方法实现了建筑物定量和定性检测［43］，结合样本平衡方法解决了灾后建筑物识别样本失衡问题［44］。此外，也有学者结合超参数优化算法、使用深度网络架构以及轻量化网络模型提高了检测精度和速度［45-46］。近年来，随着超像素分割和特征融合等技术的发展，已有研究同时实现了灾后建筑物多种损伤等级的检测，克服了特征选择困难、图像分割碎片化等问题。表11列举了基于卫星影像的结构灾后整体损伤自动评估技术方法。

表11 基于卫星影像的结构灾后整体损伤评估各方法评价Tab. 11 Evaluation of global damage assessment methods for post-disaster structures based on satellite images

（2）基于航拍影像识别

除了卫星影像外，航拍影像也被广泛应用于灾后救援及重建领域。有学者提出了一种基于航空图像的震区倒塌建筑物自动识别技术，基于此思路，Miura等［47］利用航拍影像训练CNN模型成功实现了不同损伤等级识别，验证了该技术的应用潜力，值得一提的是，在此基础上引入图像的3D特征可以显著提高网络模型的泛化能力和准确率。然而，由于航拍影像下倒塌建筑物形状多样、背景复杂，检测会受到传统网络特征提取能力的限制，为此，有学者引入可变形卷积层提高对任意形状倒塌建筑物的适应性［48］，或使用k-means算法优化锚点的数量和尺寸大小［49］，这些做法有效缓解了误检和漏检问题。此外，通过结合在线硬样本挖掘技术提高信息利用率［50］或使用新的网络架构［51］可获得更好的分类结果。表12列举了基于航拍影像的结构灾后整体损伤自动评估技术方法。

表12 基于航拍影像的结构灾后整体损伤评估各方法评价Tab. 12 Evaluation of global damage assessment methods for post-disaster structures based on aerial images

（3）结合多种分辨率或多模式灾害影像识别

以上方法大都使用单一分辨率作为输入，而结合多种途径（机载、卫星、航拍图像）或者多种模式（多分辨率、多时相、多感官）获取的高分辨率图像来训练网络可以提高算法的检测精度。较为典型的是Rudne 等［52］提出的融合多分辨率、多时相和多感官卫星图像训练CNN 的思想。表13列举了结合多种分辨率或多模式灾害影像的灾后自动识别技术方法。

表13 结合多种分辨率或多模式灾害影像的灾后识别各方法评价Tab. 13 Evaluation of post-disaster identification methods in combination with multi-resolution or multi-modal disaster images

从本节可以看出，基于深度学习的计算机视觉技术以高效、低成本、可快速获取感兴趣图像特征等优势正在结构灾后整体损伤评估领域发挥着愈发重要的作用，但不可否认的是，该技术在处理灾后地面现场细致调查时存在精度不足、无法探测结构内部破坏等问题。为此，未来可考虑与工业自动化监测设备集成，在解决灾后细致调查问题的同时使结构健康监测更加智能化和高效便捷。

5 结语

本文重点回顾和总结了基于深度学习的计算机视觉技术在土木工程建设全生命周期中的应用。首先利用CiteSpace 软件对检索到的相关文献进行科学分析与统计；其次简要阐述了计算机视觉技术的发展历程和基本原理，归纳了构建深度学习数据集所涉及的数据获取、数据处理以及数据标注方法；最后回顾了近年来基于深度学习的计算机视觉技术在施工现场安全管理、在役结构损伤检测以及灾后结构损伤评估领域中的应用研究。通过对相关工程应用发展脉络的了解，可以找到研究共性和迁移点，从而启发研究者在未来开发更多类型的实际应用，更好地辅助工程任务。下面列出了可以拓展的应用方向。

（1）进一步完善预制构件的数据集类型，使其更好地服务于装配式建筑施工进程。

（2）引入视频结构化技术，建立施工场景对象动态关联网络。

（3）将可见损伤检测结果与内容分析相结合，进一步组织成可供计算机和人理解的文本信息或可视化图形信息，以提供更多的信息解释和趋势判断能力。

（4）集成自动化监测车以及机器人，使结构健康监测更加智能化和高效便捷，进一步推动基于深度学习的计算机视觉技术在土木工程领域的实际部署及产业化发展。

目前，基于深度学习的计算机视觉技术正在土木工程建设全生命周期中发挥重要作用。未来，通过构建高质量数据集、引入新的图像处理技术以及改进深度学习算法框架等方法，基于深度学习的计算机视觉技术将发挥出更丰富的土木工程应用潜力。

作者贡献声明：

方成：论文想法提出，论文核对。

于盛鑫：论文框架设计，论文撰写与修改。

李永刚：论文构思、修改与核对。

贾王龙：论文构思与核对。

杨鹏博：论文构思与核对。

杨欣悦：论文总体规划，论文撰写与核对。