APP下载

基于人工智能的桥梁表观病害多标签图像识别研究

2022-11-17杨勇史肖蒙

中国水运 2022年10期
关键词:表观类别标签

杨勇,史肖蒙

(1.贵州大学,贵州 贵阳 550025;2.贵州城市职业学院,贵州 贵阳 550025)

1 引言

桥梁进行定期的检查和维护是桥梁安全运行的必要条件,是保障国民经济的重要措施,其工作量日夜剧增, 而传统的桥梁检测技术存在着效率低、检测盲区、受工人主观因素影响等问题且存在安全隐患。改进检测方法,应用无人机、机器人、人工智能等技术实现桥梁智能化、批量的高效率地检测具有十分重要的意义。

计算机视觉技术主要有三大主流的研究方向,分别是图像分类、目标检测、图像分割。图像分类是将图像分成多个类别,如分成裂缝图像、剥落图像、露筋图像等;目标检测是要将图像中的病害目标与在图像中的位置区域标识出来,图像分割是只保留病害目标的区域,删除背景像素的技术,效果见图1 所示。

通过无人机、机器人等智能设备采集桥梁表观图像,利用计算机视觉技术对图像进行分类、目标检测,从而智能识别出存在桥梁表观病害的图像,以达到自动化的检测桥梁表观病害的目的是当下学者研究的热门问题。王桂平[1]等人提出迁移VGG16 网络模型结构及全部卷积层参数,在结构末尾添加病害分类的全连接层来实现病害图像的分类;以YOLO 目标检测算法模型为基础,改进YOLO 模型结构[2-4]、提出新模型结构来实现桥梁表观病害的目标检测。

上述研究中对于病害图像分类均是以单标签的图像进行,即一张图像中只识别单一的病害,但实际采集的一张桥梁表观图像中,往往存在多标签的病害,即一张病害图像中存在多个类别的病害;对于目标检测的研究未对图像进行预分类,因采集的图像数量一般非常多,且存在病害的图像只有少数,若将所有图像都进行病害目标检测,大量的背景(无病害)图像必然会对检测形成极大的干扰。本文主要基于计算机视觉技术下的图像分类技术,建立桥梁表观多标签病害图像数据集,利用主流的VGG、ResNet、DensNet 等网络进行多标签病害的分类,过滤出存在病害的图像,为后续的病害目标检测、分割量化奠定基础。

2 多标签病害图像分类

2.1 多标签图像分类概述

首先,多标签图像分类不同于多类别的分类问题,多标签分类是对每个样本每张图像分配一组病害标签集,每个样本的所有标签不是互斥的;而多类别分类是假设每张图像仅有病害标签集中的一个病害标签。其次,多便签图像分类也不同于多输出分类的问题,多输出的分类问题,虽然处理的也是每张图像中有多个标签的分类问题,其往往预测的是每张图像的固定数量的标签。

2.2 多标签图像的解决方案

近年来,神经网络强大的非线性表征能力使深度学习在图像分类任务中的可行性、提取图像特征的能力大幅度增加,研究出了许多多标签图像分类的解决方案。

有学者设计了多个模型,直接将多标签分类看成多个二分类进行图像分类,该算法未考虑标签中的相关性,如露筋与锈蚀往往是一并存在的;Wei[5]等提出对每张图片提取含有标签信息的候选区域,然后将每个候选区域输入CNN 进行分类训练,最后融合所有候选区域的分类结果,从而得到多个标签信息完整的图片;Jiang Wang[6]等提出了CNN-RNN 网络结构,利用CNN 提取相应的语义特征,建立标签之间的相关性,完成分类训练,该算法考虑了每个图像中的标签的相关性;TN Kipf[7]通过构建数据集中标签共现的概率,完成GCN 模型的构建,发掘目前类别之间的相关性,并联合CNN进行训练,完成最终的分类任务。

本文是基于弱监督学习的方法,对每张图像是否病害目标建立Multi-Hot 向量标签。该方法的主要思想是将复杂的多标签分类问题转化为单标签分类,因而可以利用迁移学习等技术来训练,达到多标签分类的目的。

2.3 多标签网络模型

多标签网络模型的思想是设X=Rd:表示d 维的输入空间;Y={y1,y2,...,ym}:表示带有m 个可能的标签空间;D={(xi,yi)|1 ≤ i ≤ m}:训练集,m 表示训练集的大小,上标表示样本序数,xi∈ X,是一个d 维向量,yiY,是Y 的一个标签子集。模型的任务就是学习一个多标签集的分类器函数F(xi),使F(xi)→yi。

本文是利用计算机视觉下的图像分类的主流模型VGG、ResNet、ResNeXt、DensNet、SENet 进行修改结构末尾的分类层进行迁移学习,并对比各网络模型的差异,选出最适合桥梁表观病害图像分类的网络。

2.4 多标签图像分类实验

本文研究采用公开的数据集COncrete DEfect BRidge IMage Dataset[8],该数据集是由Martin Mundt 等人收集的混凝土桥梁多标签缺陷图像,包含有六个相互不排斥的类别:钢筋混凝土表面的裂缝(Crack)、脱落(spallation)、露筋(exposed bars)、风化(efflorescence)、腐蚀(corrosion stain)合计5 个类别的病害和无缺陷(Background)图像。为提高模型的泛化能力,训练过程中会采用随机旋转、裁剪、翻转、随机噪声等数据增强技术。

2.5 评价标准

多标签的图像分类较为复杂,其评价标准也与多分类的图像任务不同,其大致分为三大类,分别是基于样本的评价、基于标签的评价、整体评价,具体指标包含准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 值、汉明损失(hamming_loss)、平均精度(Average Precision)等。

2.6 结果分析

本文选取了ResNet50、ResNeXt50、ResNest50、SE_ResNeXt101、DenseNet121 共5 个主流的图像分类模型进行迁移学习,训练120 个epoch,计算了在测试集上的相关指标见表1 所示。mAP 表示各病害识别平均精度的均值,是以精确率(Precision)为纵轴,召回率(Recall)为横轴绘制曲线下的面积,它不受人为主观设置的阈值的影响,更加综合评价模型的性能,从表1 的结果中看出SE_ResNeXt101、ResNeXt50 模型的mAP 值分别为93%、90%,为对比的5 个模型中最好的两个模型,验证了模型中的分类聚合变换和注意力机制对桥梁表观病害图像的分类识别有较强的适用性。

表1 各实验模型测试性能对比

选取mAP 值最高的SE_ResNeXt101 模型,绘制其在测试集的各个病害类别的P-R 曲线如图2 所示,该曲线与坐标轴围成的面积及AP 值,其中露筋的AP 值最高为97%、腐蚀的AP 值最低也有88%,说明该模型对于桥梁表观病害图像的识别有很好的效果,能在实际的检测工作中应用。

图3 的混淆矩阵统计了SE_ResNeXt101 模型在测试集上的各个类别病害检测情况,如裂缝总目标有150个,召回138 个,漏检12 个,召回率92%;模型预测裂缝总数162 个,正确的138 个,误检24 个,精确率85%,其他类别也有较好的检测效果。

3 结论

本文对比了ResNet50、ResNeXt50、ResNest50、SE_ResNeXt101、DenseNet121 共5 个主流的图像分类模型在桥梁表观图像上识别分类病害的性能,其SE_ResNeXt101 网络模型mAP 值为93%,具有较好的检测性能,能够有效地过滤出存在病害的图像,踢出无缺陷图像的干扰,为后续进一步精确检测研究奠定了基础,对实际的检测工作也有参考价值。

猜你喜欢

表观类别标签
论陶瓷刻划花艺术类别与特征
一起去图书馆吧
例析对高中表观遗传学的认识
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
让衣柜摆脱“杂乱无章”的标签
科学家的标签
选相纸 打照片