融合自注意力机制与深度学习的混凝土表面裂隙智能识别
2021-05-11哈纳提吐尔森哈力林杭
哈纳提·吐尔森哈力,林杭
融合自注意力机制与深度学习的混凝土表面裂隙智能识别
哈纳提·吐尔森哈力,林杭
(中南大学 资源与安全工程学院,湖南 长沙 410083)
混凝土裂隙几何信息识别的精确度,影响后期工程的安全。而传统的检测方法存在对裂隙识别不准、不全、不即时的缺陷,无法满足精度和实效性的现实需求。本文提出一种融合自注意力机制与全卷积神经网络的图像分割算法,以混凝土裂隙图像建立数据集,搭建深度学习网络;以全卷积神经网络训练模型,使用空间自注意力模块调整特征编码,输出基于自注意力机制模块识别的高精度二值图。经精准率、召回率、平均交并比和综合评价指标等维度同传统图像分割方法进行对比,结果显示,本文方法得到的混凝土裂隙二值图与原图最相近,在定量上精准率、召回率、平均交并比和综合评价指标分别达到62.93%,88.08%,72.21%和83.86%,进而验证本文提出的方法优于传统方法裂隙识别方法。
深度学习;全卷积神经网络;自注意力机制;裂隙识别
混凝土作为主要建筑材料,在路面建筑、地下隧道和道路施工中运用广泛。由于地面非均匀沉降、表面应力、温度和湿度耦合影响等原因,混凝土表面会有裂隙、渗水等病害产生,存在安全隐 患[1]。而传统检测方法以人工巡检和手工记录为主。耗时低效且人为主观性强。近年来,具有多尺度、经济性、非接触性等优势的基于数字照相量测的图像识别技术开始兴起。由数据采集和数据识别处理2部分组成,先将混凝土表面裂隙图像由相机等数字化设备采集到计算机中,而后经图像增强、锐化等预处理转化为二维信息矩阵。为了能够准确地获取相应的混凝土裂隙信息,再经图像分割等计算机算法处理才能得到需要研究的混凝土信息[2]。常用的图像分割方法主要有基于阈值、区域和边界的分割算法等[3]。房铭坤等[4]采用Otsu算法对混凝土表面裂隙图像进行了阈值分割,以计算方差选取最优阈值,进而较好地从图像中提取裂隙信息,但裂隙图像中仍存在大量的背景噪声,且存在细裂缝缺失、断裂等影响数据精度的情况。王世芳等[5]通过形态学、分形等方法改进了阈值分割算法,提升了边缘检测的精度;但边缘检测对图像对比度不敏感,易受伪边缘干扰,仍无法全面提取细微裂隙。邓兆鹏等[6]基于改进的区域生长法和Hough变换对钻孔图像水平裂隙识别,可以对不同的钻孔孔壁图像的水平裂隙和离层实现准确的检测识别,但对裂隙原图像仍要进行前期预处理,工作量大,过程繁琐。基于传统图像分割的裂隙识别方法在人工接触采集的基础上一定程度节约了时间,但后期图像处理过程复杂,存在对裂隙识别不准、不全和不即时的缺陷,无法满足精度和实效性的现实需求。采用图像分割技术进行裂隙识别,其过程自动化是解决问题的关键。Hubel等[7]以猫的视觉神经细胞为研究切入点,推动了卷积神经网络的(Convolutional Neural Network,CNN)诞生。Yann等[8]将卷积神经网络进行了完善和优化,在手写数字的识别问题中取得成功。Cha等[9]将传统图像分割方法与CNN相结合,对混凝土表面裂隙进行识别。但因CNN无法对像素级的细微裂隙进行识别分类的缺陷,当时只能对人为指定的区域裂隙完成识别和参数表征。ZHANG等[10]单独使用CNN对路面裂隙进行了识别分类,但CNN中,全连接层(Fully connected layer)占用空间大,效率低,造成了识别速度较慢。在此基础上,赵珊珊等[11]以CNN核心识别方法继续对路面裂隙进行识别,但是在图像处理前期,仍要对输入图像进行强度归一化和像素饱和化等图像预处理操作。薛亚东等[12]通过CNN训练隧道衬砌混凝土图像样本,采用了优化的卷积核,改进inception模块,使得新模型识别率超95%,但对于大尺度图像,识别速度还有提升空间。随着自然语言处理(NLP)技术的发展,自注意力(Self-Attention)机制逐渐被人们发现和应用。Self-Attention机制起源于人类视觉系统(Human Visua System),当人眼看一幅图片时,人眼对图片的注意力集中在一处或几处位置(形成所谓的saliency map)而非平均在整幅图片上。因此通过训练图像区域之间的权重关系,可以显著优化卷积过程中只对局部像素进行处理的不足。综上所述,传统图像分割方法在裂隙识别前期的图像预处理过程较复杂,识别过程中也需要多次调整参数,造成结果准确性降低和识别过程间断性的局面。而基于神经网络的图像分割方法通过训练数据集并学习图像的高维图像特征。不依赖于人为定义的特征参数,对不同特征的数据具有较高的泛化性和鲁棒性。为此,本文拟采用融合自注意力机制与全卷积神经网络的新算法对混凝土表面裂隙进行识别,从而有效提升识别速度和准确性。
1 全卷积神经网络与自注意力机制
2015年,为了弥补CNN在图像精细化(像素级)分割识别方面的不足,提出全卷积神经网络(Fully Convolutional Networks,FCN)[13]的深度学习框架,它是传统卷积神经网络(CNN)的扩展。主要思想是利用反卷积层(Deconvolution layer)取代原有架构的全连接层部分,实现了可以输入任意大小分辨率图像。FCN在原有CNN的网络结构基础上,引入反卷积层,通过反卷积恢复到输入图像的尺寸。需要注意的是,反卷积是卷积的逆操作,恢复的只是图像大小,并不能恢复图像像素值,因此需要训练反卷积的卷积参数,使其恢复正确的像素值。
如图1所示,上图中最后3层为CNN分类网络的最后3层,下图的最后3层为FCN的反卷积层。
图1 全卷积结构
FCN的核心是语义分割(Semantic- Segmentation),是对原图的所有像素点进行逐个的预测,从而对图像的每个像素完成一次“端”对“端”的预测[14]。
在卷积过程中,由于卷积核的大小较小且固定,所以在一次卷积过程中,距离较远的像素之间无法建立起关系。使用空洞卷积可以部分解决这个问题。
图2 空洞卷积过程示意图
如图2,空洞卷积通过一个稀疏的卷积核,将卷积的感受野相应放大。但空洞卷积存在像素使用不完全、扩大感受野的同时损失局部信息等问题。
一个更好地解决此问题的方法是引入自注意力机制(Self-Attention)。如图3,网络结构为编码器−编码−解码器的串联系统。
图3 编码器−解码器系统示意图
通过在语义编码过程中加入注意力机制,生成多种包含高层注意力特征的编码,再输入解码器,即可训练网络在远距离的像素之间的关联能力。
2 基于AFCN的裂隙图像分割方法 建立
2.1 数据集的建立
通过高分辨率智能手机采集建筑结构面、墙面、路面等混凝土结构裂隙图像。最终得到1 000张完整的原始裂隙数据集,对于裂隙原图的标注采用描点标注,将需要标注的元素(裂隙)按照需求位置运用Photoshop软件进行像素级标识,并在开源平台GitHub上进行了数据集开源共享(https:// github.com/DebiaoMa/CSU-Crack)。
数据集裂隙主体统一裁剪为500P×500P的尺寸,在标签图中,以不同颜色区分图像中的裂隙和非裂隙,其中裂隙被R-G-B:0-0-0的黑色区域标注,非裂隙被R-G-B:255-255-255的白色区域标注(见图4)。
因人工直接采集数据集数量有限,不能满足模型训练需求,故进行了数据增强。在扣除100张图像作为测试集后,对剩余图像进行旋转缩放处理,一方面是增加数据集数量,另一方面可以训练网络获得旋转不变性。旋转缩放后获得20 700张图像,按5:1的比例将图像分割为训练集(17 250)和验证集(3 450)。
图4 数据集中部分原图和标签图
2.2 网络模型构建
FCN与卷积神经网络的差异在于取消了全连接层,在网络结构最后反卷积过程中利用上采样完成,从而使输出结果恢复到与最初输入图像相同的尺寸,实现任意尺寸的输入。与此同时,FCN结合和了不同维度的特征图,反卷积层可以对每个像素产生一个预测分类,从而预测裂隙在图中的位置。
以上是传统的FCN网络结构,在此基础上,本文加入了自注意力机制,在远距离像素中寻找特征间的联系,并将此网络命名为AFCN(Attention Fully Convolutional Network)。将注意力模块命名为SAM(Spatial Attention Module),SAM输入的是原始特征图,输出的是经过注意力操作的特征图。SAM的结构,图5所示。
图5 注意力模块示意图
将一个特征图经过一个MLP之后,通过全局最大池化层和全局平均池化层,之后将3个通道的值进行一次卷积以降维到一个通道中,之后使用sigmoid函数激活一次,得到经过注意力操作的特征图。
输出特征与输入特征的关系如式(1)所示:
可以看出,注意力机制的操作主要体现在在全局上经过了一个最大池化和平均池化操作,平均池化操作在反向传播时对所有特征给定反馈,最大池化操作在反向传播时只对特征最大的位置给定 反馈。
将FCN的编码器结尾连接到SAM,并将SAM的输出连接到反卷积网络(解码器)的输入层。
被初始化操作的AFCN网络结构会对输入裂隙图像进行卷积、池化等操作,过程中也会有图像参数的随机丢失。经过空间注意力模块得到编码,再通过反卷积层将特征图恢复到与原始图像相同的尺寸,并对每个像素都产生一个分类。其中,网络的最后一层为损失函数,作用是计算网络输出值与标签值间的误差之和。此处使用的损失函数为交叉熵函数,如式(2)。
图6 AFCN网络结构图
本文采用深度学习框架TensorFlow实现,构建(如图6所示)AFCN网络,采用VGGNet 16[15]对卷积层进行微调。进行网络随机初始化,然后输入裂隙标签图,经过5层卷积、池化和随机丢弃后图像尺寸从500*500变为16*16,之后将16*16*3的图像输入空间注意力模块中,进行注意力处理,最后将SAM输出的特征向量输入反卷积层进行反卷积。原图尺寸的输出要经历4层输出的2次融合,反卷积第1,第2层输出分别与池化层第4,第3层输出进行融合。2次融合完成后再通过反卷积输出。与标签图进行像素对比计算交叉熵损失并进行反向传播优化卷积层、SAM和反卷积层参数,之后进行下一个迭代。
trainingloss曲线(图7)所示,在开始训练不久,损失函数误差迅速降低,呈现缓慢降低趋势。在经过约5 000次迭代后,训练误差趋于收敛,同时验证集误差也较低,证明模型没有出现过拟合现象。之后使用测试集数据对网络进行测试,得到高精度二值图,见图8。
图7 Training loss曲线
图8 AFCN输入输出图像对比
2.3 模型评价标准
通过AFCN对模型训练完成后,需要进行模型泛化能力验证,即对数据集以外的裂隙图像的识别效果和准确度。对裂隙图像进行语义分割,利用精确率(Precision)、召回率(Recall)、平均交并比(IoU)和综合评价指标(1)对识别模型进行泛化能力评价。
裂隙图像识别结果共有3种,第1种是识别正确的目标,即将图像中的裂隙识别为裂隙;第2种是识别错误的目标,将图像中不是裂隙的识别为裂隙;第3种是识别遗漏的目标,将图像中本是裂隙的部分没能识别出来。精确率()是针对预测二值图的准确性。它表示预测为裂隙的输出图像中有多少是正确的裂隙(TP+FP)。于是输出为裂隙二值图的情况就存在2种可能,一种是把本身是裂隙的图像输出标定为裂隙(TP),另一种是把不是裂隙的图像错误地输出为裂隙图像(FP);而召回率()是针对我们原来标签图而言的,即标签图中所有裂隙的点。它表示的是标签图中有多少裂隙被输出标定正确(TP+FN)。也有2种可能,一种是把原来的裂隙正确输出为裂隙(TP),另一种是把原来的裂隙错误的输出为裂隙(FN)。平均交并比(IoU)是对每一类预测的结果和真实值的交集与并集的比值求和平均的结果。即:如图9所示,仅仅针对某一类来说,左边圆形部分代表真实值,真实值由2部分组成TP,FN;右边圆形部分代表预测值,预测值由2部分组成TP,FP;白色部分代表TN(真负);所以其交集就是TP+FP+FN,并集为TP。
图9 平均交并比释义图
本文综合考虑了召回率和精确率,选用综合评价指标F1。计算式见(3),(4),(5)和(6)所示。
3 不同算法识别效果对比
经前文所示模型搭建和训练过程,本文所用算法模型对混凝土裂隙图像已具备一定鲁棒性,接下来将通过2组实验,在精准率、召回率、算法用时、平均交并比、综合评价指标等维度同传统图像分割算法(Otsu算法、边界检测、区域生长法)和传统全卷积神经网络算法进行对比实验,进一步验证本文算法的适用性。
3.1 实验1:本文算法同传统图像分割算法对比
从验证集中有针对性的挑选4组环境因素干扰下的裂隙图像,分别对其使用Otsu法、边界检测、区域生长法等传统图像分割方法以及本文图像分割方法进行对比实验,图像处理结果如图10所示。
组别1,环境干扰因素为人为斑点等非裂隙影响,导致灰度变化剧烈。Otsu算法较好的识别出了明显的裂隙,因此对背景灰度一致、光照均匀及对比度高的裂隙图像能够较好的完成裂隙识别。本文算法是通过模型训练,完成对裂隙高级几何特征的学习,从而达到对原图直接裂隙识别,能够精准地识别出裂隙,裂隙与非裂隙分割明显,无其他噪点。
组别2,对识别裂隙的造成主要干扰主要因素为自然或人为光照造成的背景阴影。对于较复杂的裂隙图像识别,具有多个识别机制的分割算法会相对完成较好的图像二值化效果。区域生长法分割图像的实质是裂隙与非裂隙区域在像素数值的不同,不同像素值对应不同亮度,进而完成图像分割,裂隙特征提取。因其阈值选择合适,几乎没有受到阴影部分影响,本文算法同样识别情况良好。
组别3,环境干扰为背景噪点。在裂隙图像识别过程中,背景图像的噪点也成为识别效果好坏的影响因素之一,传统图像方法一般在二值化之前会进行诸如滤波降噪、图像对比增强等前期预处理以达到降噪目的,本文算法是基于深度学习的图像识别,可对原图直接二值化,原图背景噪点影响较小,裂隙预测基本正确。
组别4,干扰因素为混凝土表面小颗粒。裂隙识别过程中,图像背景中也会夹杂混凝土自身表面小颗粒,如何降低这种非可控小颗粒对识别效果的影响,也是完成图像分割的关键。本文算法在前期模型训练过程中进行了大量裂隙的识别训练,因此对裂隙和非裂隙识别效果良好,像素预测正确。
为了更直观地了解到每种算法的识别效果及算法时间,可看图11。本文算法在定量上精准率和召回率达到62.93%和88.08%,在用时方面,仅统计了从裂隙原图输入到二值图输出的数据处理时间,若考虑传统算法在裂隙识别前对原始图像亮度、对比度调消除图像噪点、锐化等预处理,实际用时将更久,无法满足实时定性识别和定量表征的现实需要。
图10 各算法识别效果(输出二值图)比较
图11 本文算法同传统算法评价指标对比
3.2 实验2:本文算法同传统FCN对比
关于环境干扰已在实验一部分进行了验证,本文算法有较好的适应能力和综合表现。接下来将从裂隙本身出发,即识别过程中对细小微裂隙不敏感、对交叉、环形等复杂裂隙识别能力低等问题,对传统FCN算法和本文算法进行对比实验。图像处理结果如图12所示。
组别1,裂隙在Y型主裂隙的基础上,引申出许多细小裂隙,交错分布。本文算法虽部分识别细小裂隙,但对主干裂隙的末端有漏检情况,主要原因是训练集中相关裂隙所占比不大,导致训练分布不均匀所致。
组别2,在T型交叉裂隙的枝干上有细小裂隙的产生。传统FCN算法仅识别出主干部分,对细小裂隙只有部分识别,不完整。本文算法识别效果相对较好。
组别3,以细小裂隙为主的X型交叉裂隙,传统FCN算法识别不完整。X型交叉裂隙,在两个交点出裂隙隙宽较大,相应裂隙像素所占比也大,因此交点处裂隙较好识别,但随着裂隙的延伸,末端裂隙宽度减小,裂隙像素所占比也较小,因此传统FCN在识别过程中存在输出像素不连续的情况,误将末端裂隙部分当做非裂隙背景。
组别4,在单裂隙的基础上延伸出细小裂隙。传统FCN算法只能做到对主干裂隙的识别,分支细小裂隙几乎全部遗漏。
图12 识别效果(输出二值图)比较
图13 本文算法同传统FCN评价指标对比
结合量化评价指标平均交并比和综合评价指标2个参数可以对识别效果的好坏有更直观的感受。深层分析传统FCN算法的不佳表现,一方面是训练集中细小裂隙图像占比相对较少,训练样本类别不均衡,导致传统FCN算法模型对细小裂隙图像的鲁棒性不是很好;本文算法因在网络结构中融合了自注意机制,弥补了池化过程当中丢失信息的缺陷,可以提升网络精度,对细小裂隙的识别表现较为良好,平均交并比和综合评价指标达到了72.21%和83.86%(具体数据见图13)。后期若提升训练集中细小裂隙、复杂微裂隙图像所占比例,综合表现仍会有提升。
4 结论
1) 提出一种名为AFCN的融合自注意力机制的全卷积神经网络混凝土裂隙识别算法,对比传统的Otsu法、边界检测法和区域生长法,其精准率和召回率达到62.93%和88.08%,算法运行时间也优于传统算法。
2) 利用平均交并比和综合评价指标对本文识别算法同传统FCN进一步定量评价,本文算法评价指标好于传统全卷积识别算法,平均交并比和综合评价指标分别是72.21%和83.86%,对细小裂隙,环形、交叉等复杂裂隙有更好的识别效果。
[1] 卫军, 曹龙飞, 曾艳霞, 等. 混凝土结构裂缝特征提取研究[J]. 武汉理工大学学报, 2011, 33(11): 72−75. WEI Jun, CAO Longfei, ZENG Yanxia, et al. Research on crack feature extraction of concrete structure[J]. Journal of Wuhan University of Technology, 2011, 33(11): 72−75.
[2] 陈从新, 刘秀敏, 刘才华. 数字图像技术在岩石细观力学研究中的应用[J]. 岩土力学, 2010, 31(增1): 53−61. CHEN Congxin, LIU Xiumin, LIU Caihua. Application of digital image technology in meso-mechanics of rocks [J]. Rock and Soil Mechanics, 2010, 31(Suppl 1): 53−61.
[3] 周莉莉, 姜枫. 图像分割方法综述研究[J]. 计算机应用研究, 2017, 34(7): 1921−1928. ZHOU Lili, JIANG Feng. A review of image segmentation methods[J]. Application Research of Computers, 2017, 34(7): 1921−1928.
[4] 房铭坤, 付国. 基于数字图像处理的混凝土裂缝宽度检测方法研究[J]. 建筑结构, 2019, 49(增2): 630−634. FANG Mingkun, FU Guo. Research on concrete crack width detection method based on digital image processing [J]. Building Structure, 2019, 49(Suppl 2): 630−634.
[5] 王世芳, 车艳丽, 李楠, 等. 一种基于多尺度脊边缘的沥青路面裂缝检测算法[J]. 中国公路学报, 2017, 30(4): 32−41. WANG Shifang, CHE Yanli, LI Nan, et al. An asphalt pavement crack detection algorithm based on multiscale ridge edges[J]. China Journal of Highway and Transport, 2017, 30(4): 32−41.
[6] 邓兆鹏, 曹茂永, Laxmisha Rai. 基于改进的区域生长和Hough变换的钻孔图像水平裂隙识别[J]. 科学技术与工程, 2019, 19(31): 239−245. DENG Zhaopeng, CAO Maoyong, Laxmisha Rai. Recognition of horizontal fractures in borehole images based on improved region growth and Hough transform [J]. Science Technology and Engineering, 2019, 19(31): 239−245.
[7] Hubel D H , Wiesel T N . Receptive fields and functional architecture of monkey striate cortex[J]. The Journal of Physiology, 1968, 195(1): 215−243.
[8] Yann L, Yoshua B. Convolutional networks for images, speech, and time series[M]. The Handbook of Brain Theory and Neural Networks. London: MIT Press, 1998: 255− 258.
[9] Cha Y J, Choi W, Buyukozturk O. Deep learning-based crack damage detection using convolutional neural networks[J]. Computer Aided Civil & Infrastructure Engineering, 2017, 32(5): 361−378.
[10] ZHANG L, YANG F, ZHANG D, et al. Road crack detection using deep convolutional neural network[C]// IEEE International Conference on Image Processing (ICIP 2016). IEEE, 2016: 3708−3712.
[11] 赵珊珊, 何宁. 基于卷积神经网络的路面裂缝检测[J].传感器与微系统, 2017, 36(11): 135−138. ZHAO Shanshan, HE Ning. Pavement crack detection based on convolutional neural network[J]. Transducer and Microsystem Technologies, 2017, 36(11): 135−138.
[12] 薛亚东, 李宜城. 基于深度学习的盾构隧道衬砌病害识别方法[J]. 湖南大学学报(自然科学版), 2018, 45(3): 100−109. XUE Yadong, LI Yicheng. Recognition method for shield tunnel lining diseases based on deep learning[J]. Journal of Hunan University (Natural Science), 2018, 45(3): 100− 109.
[13] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436−444.
[14] 宋青松, 张超, 陈禹, 等. 组合全卷积神经网络和条件随机场的道路分割[J]. 清华大学学报(自然科学版), 2018, 58(8): 725−731. SONG Qingsong, ZHANG Chao, CHEN Yu, et al. Road segmentation combining a fully convolutional neural network and conditional random fields[J]. Journal of Tsinghua University (Science and Technology), 2018, 58(8): 725−731.
[15] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classifica-tion with deep convolutional neural networks [C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe: Curran Associates Inc, 2012, 1: 1097−1105.
Intelligent identification of cracks on concrete surface combining self-attention mechanism and deep learning
Hanat tursenhali, LIN Hang
(School of Resources & Safety Engineering, Central South University, Changsha 410083, China)
The accuracy of the geometric information identification of concrete cracks will affect the safety of later projects. However, the traditional detection methods have the defects such as inaccurate, incomplete, and not instantaneous identification of cracks, which cannot meet the practical requirements of accuracy and effectiveness. This paper proposed an image segmentation algorithm that combines a self-attention mechanism with a fully convolutional neural network. A concrete crack was used to build a data set to construct a deep learning architecture; a fully convolutional neural network was used to train the model and a spatial self-attention module was used to adjust the characteristic encoding, output high-precision binary figure based on self-attention mechanism module recognition. The dimensions of precision rate, recall rate, average merge ratio and comprehensive evaluation index were compared with traditional image segmentation methods. The results show that the binary figure of concrete cracks obtained by this method is the closest to the original image. In terms of quantitative accuracy, recall rate, average crossover ratio and comprehensive evaluation index reached 62.93%, 88.08%, 72.21% and 83.86%, respectively, and then verified that the method proposed is superior to the traditional method of crack identification.
deep learning; fully convolutional networks; self-attention; crack identification
10.19713/j.cnki.43−1423/u. T20200575
TU455
A
1672 − 7029(2021)04 − 0844 − 09
2020−06−23
国家自然科学基金资助项目(51774322);湖南省自然科学基金资助项目(2018JJ2500)
林杭(1980−),男,福建福州人,教授,博士,从事数值计算与岩土力学等方面研究;E−mail:linhangabc@126.com
(编辑 阳丽霞)