基于YOLO模型的堤坝管涌监测智能识别方法

2024-01-15陆公义欧阳鹏羌予践

水利水电科技进展 2024年1期

陆公义,欧阳鹏,程赟,羌予践,华亮

(南通大学电气工程学院,江苏南通 226019)

堤坝上发生的险情中,堤基渗透破坏是其首要原因,而管涌在其中占据很大比例[1-2]。管涌一旦发生,往往逐渐恶化,因此,及时、准确地对堤坝进行管涌渗漏检测,对维护民众的生命财产安全具有重大意义,也是识别检测领域研究的热点问题。

近年来,学者们通过多种方式对管涌渗漏检测进行了大量的研究。例如：郭波等[3]利用数值模拟开展了堤基管涌出口位置检测试验,利用流速的异常参数来判断并预测管涌的出口位置;明攀等[4]利用声发射技术,将声发射传感器埋设于自主搭建的堤基管涌砂槽模型,实时监测堤防的管涌过程,找出了管涌过程中水力参数和声发射参数的分布规律关系,从而提出通过监测声发射参数对管涌过程进行判别的方法;王霜等[5]使用有限元分析方法,确定了管涌各阶段颗粒流失的相关参数信息,并总结了其破坏规律。随着科学技术的发展,人工智能与机器学习等技术在堤坝险情的识别上也得到了较广泛的应用。例如：翟越等[6]建立了堤防管涌发生可能性预测的支持向量机(support vector machine,SVM)模型,并采用网格搜索寻优方法对其进行优化,最终获得了较高的识别准确率;戴豪[7]将时域有限差分法与神经网络相结合,建立了地质雷达(ground penetrating radar,GPR)管涌正演模型,提出了一种基于时域有限差分法的管涌隐患识别方法,提高了地质雷达管涌隐患检测的效率。

堤坝管涌的发生具有突发性,目前对堤坝管涌的视觉巡查排险多为人工巡查,存在效率低、检测不及时等问题。通过无人机巡检结合机器学习方法可有效替代人工检测,从而很好地解决此类问题。周仁练等[8〗通过无人机搭载红外摄像的方法,提出了基于无人机载式红外可见光成像的土石堤坝工程渗漏巡查实现流程,可有效地探测堤坝管涌渗漏,并通过现场试验验证了其有效性与实用性。张佳琪等[9]通过搭建无人机巡检系统软硬件平台,实现了堤坝病害数据的自动采集以及裂缝与渗漏的识别。

YOLO(you only look once)系列算法[10-12]具有速度快、精度高的优点,并且可以有效地学习目标高度泛化的特征,已在目标识别多个领域内得到广泛应用。本文通过引入改进的残差块、改变卷积步长及替换模型的激活函数来改进传统的YOLO v3模型结构,构建了基于管涌感兴趣区域[13](regions of interest,ROI)提取的Piping YOLO模型。在提取出管涌ROI后,通过二维主成分分析(two-dimensional principal component analysis,2D-PCA)方法提取管涌现象的特征,将其作为多权值神经网络(multi-weight neural network,MWNN)的输入,以期实现管涌状态的分类识别。

1 模型构建

1.1 管涌ROI

判别管涌现象的发生以及状态时,只需要关注是否出现管涌孔以及从管涌孔涌出的相关泥沙、水样等信息,因此提取出管涌ROI可以快速准确地过滤掉图片中无用的信息,便于后期直接对管涌现象进行特征提取。YOLO模型在对管涌现象进行识别时,其锚定框会框选出所识别区域,该区域便为管涌ROI,在获取ROI后便可进行模式识别方法的特征提取。本文所构建的Pipping YOLO模型,与传统的YOLO v3模型相比,提高了网络的识别准确度和识别指标,从而能够准确提取出管涌孔这一ROI。

1.2 YOLO v3模型

YOLO v3模型所用的特征提取网络为Darknet-53网络,该网络由主干网络和多尺度预测网络组成。输入图像在通过一系列的卷积运算之后,会从Darknet-53网络的后面3个残差块组中输出3张特征图,分别为S1、S2和S3。S1卷积次数最多,其特征图的尺寸最小,感受域最宽,一般适合检测图像中区域占比很大的目标;S3卷积次数最少,其特征图尺寸最大,感受域最窄,一般适合检测图像中区域占比很小的目标;S2特征图尺寸居中,所以适合用于检测中等大小的物体。

本文检测目标为管涌孔,具有检测尺寸小、定位难度大、情况复杂等特点,虽然YOLO v3模型已经可以处理较为复杂的目标,但面对堤坝管涌这一较为复杂的工程情况,仍需进一步改进提升以满足实际需要。

1.3 Piping YOLO模型

随着卷积网络的加深,在网络性能提高的同时会出现梯度下降或消失等一系列问题,而引入残差块(Sandglass模块)可以很好地解决这一问题。在残差块中采用下采样的操作来改进残差块,将其作为新的残差块(Pipping-Sandglass模块)来改进YOLO v3模型,改进后的Piping-Sandglass模块结构如图1所示。该模块采用一个步长为2的3×3深度可分离卷积完成对管涌现象及ROI下采样的操作;考虑到提取过程中信息的丢失问题,创新地将第二个逐点的卷积步长s设为1;为确保训练的稳定性,采用了批归一化操作;为捕获目标精细的纹理细节信息,采用了两个1×1深度卷积;为缓解多个模块堆叠可能造成的梯度消失和梯度爆炸现象对模型产生的影响,添加了输入和第n个模块输出之间的跨层连接。

图1 Piping-Sandglass模块结构

Pipping YOLO模型结构包括特征提取、下采样以及残差结构,结构与Darknet-53相似,其模型结构如图2所示。图2虚线框内为卷积核及下采样残差块,作为特征提取的主要部分,同时为尽可能地得到管涌孔的相关特征信息,将一个3×3的普通卷积用来代替Pipping-Sandglass的下采样,即第一个模块使用3×3的卷积核,并将步长像素变为2。使用上采样及普通卷积的方式作用于Pipping YOLO模型来改进最后输出的特征图,以尽可能地使特征图的信息保留完整。将改进后的特征图与上一输出特征图直接相加,最终的回归分支是由Piping YOLO模型网络的末端采用普通卷积操作得到,模型末端的2个预测框里包含了管涌孔周围边框信息、管涌孔的置信度等信息。

图2 Piping YOLO模型结构

为进一步增强模型的非线性能力,本文还将模型所用的激活函数由Leaky ReLU函数替换为Mish函数[14],因为Mish函数的曲线相对更加平滑,对负值容许度更高,能够更好地提高网络的精准度。

YOLO v3模型会在目标中预先生成锚定框(anchor box),其步骤为：先将目标图像等分成若干网格,再以每个网格为中心,划分3个不同尺度的框,这些框就是锚定框,能够覆盖整幅图像,在通常情况下不会刚好和目标真实框重合,一般起到作为目标位置的参照物的作用。显然,生成锚定框所用的三个尺度会较大程度地影响预测框。而在实际训练识别的过程当中,预测框中心点和物体中心点往往无法落在同一网格内,所以通常会采用Sigmoid函数防止其过量偏移,本文的Piping YOLO模型创新地移除了Sigmoid归一化的过程,并用ax和ay表示预测框中心点相对于锚定框中心的水平和垂直偏移量,如图3所示。模型预测的边框信息等表达式为

图3 预测框的生成方式

(1)

(2)

式中：mx、my分别为预测框中心点的x轴和y轴坐标;nx、ny分别为锚定框中心点的x轴和y轴坐标;mw、mh分别为预测框的宽和高;pw、ph分别为锚定框的宽和高;tw、th为预测的尺度调整参数;(px,py)为预测的目标中心点的真实坐标;λ为参数,本文取0.2时,其预测框生成效果较好。

1.4 评价指标

选取查准率、查全率、平均精度和F1分数作为目标检测的评价指标,查准率、查全率可用来衡量ROI的误检及漏检程度,查准率、查全率、F1分数[15]和平均精度的值越高,则代表模型预测目标的性能越强。

为评价对管涌状态分类的结果,选取模式识别中应用较广泛的总体分类精度、Kappa系数以及识别时间作为分类的评价指标。

2 基于MWNN的堤坝管涌识别分类

考虑到堤坝管涌现象具有很高的瞬时性与不确定性,在实际中堤坝出现管涌现象很难及时进行图片取样,所以在样本不充足的情况下运用Piping YOLO模型提取出管涌ROI后,采用基于MWNN[16]的堤坝管涌特征现象的分类识别方法识别出管涌的类别状态。使用MWNN这一小样本学习网络可以有效地解决样本不足问题,2D-PCA方法[17-18]提取出ROI内的特征信息后,将特征矩阵作为输入,经过MWNN训练后,输出管涌的状态分类。

MWNN的建立可以看成对传统神经元网络的一种扩展,在实际应用中,样本的空间排列情况一般很复杂,而MWNN可以完成在高维复杂空间中构建相应的空间进行训练。在处理复杂情况和覆盖样本方面相比传统神经网络有着显著提高,而且不依赖于样本数量。MWNN构建完成后,基于2D-PCA方法的MWNN堤坝管涌现象识别分类流程图如图4所示。

图4 基于MWNN的堤坝管涌现象识别分类流程

3 试验结果与分析

3.1 试验数据

考虑到真实堤坝上管涌现象产生原因和表现形式的复杂性及取样的困难性,本文在自主搭建的管涌渗漏试验平台上进行验证尝试。如图5所示,试验平台主要包括：上游进水装置、稳水石子、透水隔离板、砂样、玻璃盖板等,在尽可能贴近实际工程环境下,模拟较为简单情况下的堤坝管涌现象。在成功模拟出管涌发生的全过程后,拍摄采集管涌的特征现象样本,建立堤坝管涌渗漏数据集。

图5 管涌渗漏试验平台

结合试验特征现象以及管涌机理过程,管涌特征现象分为三个阶段,分别为①管涌开始阶段：与玻璃盖板紧密接触的砂样土体微微隆起,并伴随大量气泡;②管涌剧烈发生阶段：管涌口持续涌出大量浑水,且夹带大量粗细不等的较细砂样;③管涌结束阶段：管涌口出水变清,且没有夹带砂样颗粒。

在经过多次模拟试验后,共采集管涌图片800张,其中管涌开始阶段200张,管涌剧烈发生阶段以及管涌结束阶段均为300张。每一类别选取80%用作训练,20%用作测试,在经过管涌ROI提取后,只保留样本图片ROI的部分,将其作为管涌分类的特征提取样本,采用2D-PCA方法提取特征信息,作为MWNN的输入,进而输出管涌的类别状态。

3.2 ROI提取结果与分析

图6为管涌ROI提取的定性效果图,图中红色预测框为三个阶段的ROI范围,并且每个方框ROI提取置信度都超过了0.9,表明Pipping YOLO模型在管涌ROI提取方面具有较高的可行性。

图6 管涌ROI范围及置信度

图7为ROI提取的相关指标曲线图。由图7可知,查准率、查全率、平均精度和F1分数分别达到了97.96%、85.71%、97.91%和0.91,表明本文所提出的Pipping YOLO模型对堤坝管涌ROI的提取有着良好的性能。

图7 ROI提取相关指标曲线

表1为Piping YOLO模型与YOLO v3以及RetinaNet[19]模型的ROI提取指标对比,作为同时期的目标检测算法,RetinaNet模型采用焦点损失作为候选框的类别预测,有效地解决了正负样本的不平衡问题。由表1可知,在同样的数据集上的训练结果表明,Piping YOLO模型ROI提取的各项指标均高于其他模型。

表1 管涌ROI提取各指标对比

3.3 管涌状态分类识别结果与分析

图8为ROI提取后的部分特征提取样本图,MWNN构建完成后,每一类管涌特征现象选取10个样本作为训练集,10个样本作为测试集。测试样本序号1～10为管涌开始阶段类别,11～20为管涌剧烈发生阶段类别,21～30为管涌结束阶段类别。

图8 特征提取部分样本图

管涌状态识别结果如图9所示。每一张图片都被分类到某一神经元,30个测试样本有29个被成功识别分类,总体分类精度达到96.7%。测试样本序号2应为管涌开始阶段,其识别结果欧氏距离到管涌结束阶段这一类别神经元最小,即被错误地识别为管涌结束阶段。

图9 MWNN测试集样本分类结果

为了验证MWNN对管涌阶段分类的性能,将同样的样本采用SVM、原型网络[20](prototypical networks,PN)以及深度神经网络[21](deep neural networks,DNN)进行识别,其各项指标与识别效果等如表2所示。由表2可知,针对堤坝管涌现象的状态识别方法指标,MWNN的指标均高于其他模型,PN的总体分类精度与MWNN相同,但其Kappa系数低于MWNN,表明其分类结果相较于PN表现出了较高的类内一致性与类间差异性。

4 结语

本文提出了基于堤坝管涌ROI提取的Piping YOLO模型,并将ROI内管涌的特征信息经过MWNN训练输出为管涌的类别。在自主搭建的管涌渗漏试验平台数据集上验证了该方法的可行性与有效性。与其他模型的对比表明,本文的模型表现出了更好的性能。

本文从设计及效果上已完成了半实物仿真试验,并取得了较好的结果,不仅在堤坝管涌无人机巡检领域有一定的应用前景,而且适用于很多工程问题,例如对混凝土坝的裂缝检测起到一定的参考作用。本文在自主搭建的管涌渗漏试验平台上进行了较简单情况下管涌现象的检测识别,但现实堤坝的管涌成因及现象往往较为复杂,因此管涌ROI和其特征信息可能存在着更为复杂的对应关系。未来应该尝试根据更多的实际场景去进行模型的试验与改进,使本文方法能够更好地拓展到实际的工程应用中。