煤体红外热像异常区域分割方法
2022-10-12赵小虎车亭雨叶圣田贺张凯
赵小虎,车亭雨,叶圣,田贺,张凯
(1. 矿山互联网应用技术国家地方联合工程实验室,江苏 徐州 221008;2. 中国矿业大学 信息与控制工程学院,江苏 徐州 221008;3. 中国矿业大学 安全工程学院,江苏 徐州 221008)
0 引言
在矿井开采过程中,煤岩动力灾害时有发生,严重威胁矿井安全生产和矿工生命安全[1]。煤岩在损伤破坏时会产生红外辐射效应,通过分析此时红外辐射参数变化趋势,进而预测灾害发生,是预防煤岩动力灾害的有效措施之一[2]。
很多学者对红外辐射与煤岩受载破坏情况之间的关系进行了研究。Tian He等[3]采用临界慢化理论,基于红外温度分析了煤样损伤破坏的前兆信息特征,有助于提高煤岩动力灾害预测的准确性。SUN Hai等[4]采用红外辐射和声发射联合检测系统分析了岩石单轴压缩破坏过程中的声热效应,研究成果可为超前预测由岩崩引起的工程灾害提供参考。LIU Wei等[5]对岩石在单轴压缩下的红外辐射变化温度场进行识别,通过分析温度分布特性得出了岩石破坏失稳的前兆。宋晶晶等[6]对煤样加载过程中红外热像的关键信息进行识别和提取,有效识别出煤样损伤状态。CAO K等[7]通过研究含水率不同的砂岩裂缝红外辐射特征,提出了一种基于红外光谱的裂纹初始发展和损伤点识别方法。LI Zhonghui等[8]通过应力和瓦斯耦合作用下煤体的红外辐射断裂实验,研究了瓦斯作用下煤体破坏过程中红外辐射变化规律,用于预测含瓦斯煤变形破坏的形式和强度,可准确定位煤岩动力灾害发生位置。上述研究表明,红外辐射作为非接触式检测方法,可为监测矿井煤岩动力灾害提供依据。
红外热像作为一种应用广泛的无损检测技术,通过检测目标发出的红外辐射分析异常温度分布,找到热异常发生的位置,实现损伤破坏区域检测。传统方式采用红外热像仪进行热异常可视化检测,但红外热像仪生成的红外热像图通常存在像素低、噪声大等问题,导致检测结果受主观因素影响较大。深度学习能够进行非监督训练,在高度复杂的非线性函数中提取有用特征,广泛应用于图像处理领域[9]。将深度学习和红外热像结合进行无损检测已成为趋势。WANG Bin等[10]采用Mask R-CNN分割红外热像图中变电站绝缘子区域,通过温度分析实现绝缘子自动故障诊断。M. W. AKRAM等[11]采用轻量型卷积神经网络训练正常光伏组件红外热像数据集和有损伤光伏组件红外热像数据集,实现不同类型光伏组件损伤缺陷的自动检测。H. T. BANG等[12]提出一种结合深度学习和红外热像技术的缺陷识别框架,从红外热像中检测复合材料的损伤。上述方法虽然可以很好地分割物体损伤区域,但对损伤区域边缘分割效果较差,容易遗漏一些损伤较小的区域,且模型结构单一,分割精度有待进一步提高。
目前结合深度学习和红外热像对煤体受载破坏进行识别检测的研究相对较少。煤体红外热像中损伤部位与背景之间轮廓不清晰,且受载破坏时损伤部位随机性较强,导致传统模型分割效果欠佳。针对该问题,本文提出一种基于多尺度通道注意力模块(Multi-Scale Channel Attention Module,MS-CAM)[13]的U-Net模型,并将其用于煤体红外热像异常区域分割,实现了煤体损伤破坏自动检测,提高了利用红外辐射法监测煤岩动力灾害发生的准确性和对煤体损伤区域的识别度。
1 基于MS-CAM的U-Net模型
1.1 模型结构
U-Net模型由编码器、解码器和跳跃连接组成。与普通卷积神经网络相比,其网络结构呈U形。基于MS-CAM的U-Net模型在原始U-Net模型结构的编码器中添加MS-CAM,如图1所示,使特征提取范围特定于红外热像异常区域,提高分割的准确性和鲁棒性。编码器包括卷积层、下采样层和MS-CAM。输入特征图经卷积层提取特征后,经下采样层压缩和MS-CAM关注特征。解码器包括上采样层和卷积层。上采样层通过反卷积操作实现特征放大,卷积层用于进一步提取特征。跳跃连接将编码器输出的特征图与解码器中经上采样层处理后对应相同尺寸的特征图结合,以减少特征缺失。图1中橙色矩形代表训练过程中产生的特征图,绿色矩形代表MS-CAM输出的特征图,矩形上方数字代表该特征图的通道数,矩形侧边数字代表该特征图尺寸。
图1 基于MS-CAM的U-Net模型结构Fig. 1 U-Net model structure based on multi-scale channel attention module(MS-CAM)
编码器包括4个卷积层和4个下采样层。1个卷积层中含2个通道数相同的卷积核,且所有卷积核大小均为3×3。不同卷积层中卷积核通道数不同,用于提取不同层次的图像特征。卷积层采用ReLU函数激活输出,用批归一化(Batch Normalization,BN)[14]加速学习。下采样层均为2×2卷积核的最大池化层。卷积层输出的特征图经下采样层后尺寸变小,达到了压缩特征和减少参数的目的。MSCAM聚合了多尺度特征,可自适应尺寸不同的特征图,有效解决了传统注意力机制因下采样改变特征图尺寸而无法更好地关注全局信息问题,具有较好的鲁棒性。特征图经MS-CAM处理后,其尺寸和通道数不变。该特征图将作为跳跃连接的输入。输入图像经4个卷积层和4个下采样层后,完成特征提取。
编码器输出特征图经过1个卷积层后进入解码器。解码器包括4个上采样层和4个卷积层。编码器输出特征图尺寸非常小,分辨率很低,需通过上采样层2×2卷积核的反卷积操作逐步恢复至输入特征图尺寸和提高分辨率。由于编码器中的特征图每次经过下采样层、解码器中特征图每次经过上采样层都会丢失一些特征,所以采用跳跃连接将编码器输出特征图与解码器中对应上采样层输出的尺寸相同的特征图拼接起来,以解决特征丢失问题。拼接后的特征图综合了浅层和深层特征,其经过1个包含2个3×3卷积核的卷积层进一步提取特征。卷积层采用ReLU函数激活输出,采用BN加速学习。经过4个上采样层和4个卷积层后,包含全部特征的特征图恢复成原始图像尺寸,再由1×1卷积层将特征向量通过Softmax生成概率特征图,形成煤体红外热像异常区域分割结果。
图1中基于MS-CAM的U-Net模型输入尺寸为256×256(长×宽)的单通道图像,在红外热像异常区域分割过程中,模型各网络结构输出的特征图见表1。其中Conv_i,MS-CAM_i,DownSampling_i(i=1,2,3,4)分别为编码器第i个卷积层、MS-CAM和下采样层;UpSampling_j,conv_j(j=1,2,3,4)分别为解码器第j个上采样层和卷积层;Concatenate_j为第j个跳跃连接;Conv为编码器后的卷积层;Conv1×1为解码器后的卷积层。卷积核参数中UpSampling_j+MS-CAM_i表 示Concatenate_j将UpSampling_j与MS-CAM_i跳跃连接。
表1 基于MS-CAM的U-Net模型网络结构及对应特征图Table 1 Network structures of U-Net model based on MS-CAM and corresponding characteristic images
1.2 MS-CAM
煤体在单轴压缩下受载破坏特征复杂,煤体红外热像异常区域分割过程中需考虑以下因素:① 红外热像图分辨率低,容易受到噪声干扰,导致分割误差大。② 加载受压过程中,不同时刻、不同区域温度变化不同,各区域呈现的颜色存在差异性和趋同性,即在破坏中心具有差异性,在破坏边缘具有趋同性。在边缘区域还存在界限不清等问题。③ 煤体预制裂隙和受载破坏造成的损伤尺寸存在较大差异,使用单尺度卷积提取损伤部位特征时容易漏掉部分特征,使分割不完整。④ 损伤形状各异,实验中部分煤体采用不同角度预制裂隙,且加载受压造成的损伤会沿不同区域随机扩散,呈现出不规则形状。
基于上述因素考虑,为了解决因特征图尺寸不同造成的注意特征不一致问题,更好地聚合红外热像中不同尺寸目标的上下文信息,在U-Net模型编码器中加入MS-CAM,其结构如图2所示。MS-CAM采用ParseNet[15]网络结构思想,在注意力模块中聚合多尺度特征来突出关注全局中的大目标和局部小目标,通过改变空间池大小实现多尺度通道注意,将输入特征图本地通道上下文加入到注意力模块的全局通道上下文,采用逐点卷积作为通道上下文连接器,确保输入、输出特征图尺寸一致,极大保留了编码器中浅层特征中的细节。
图2 MS-CAM结构Fig. 2 MS-CAM structure
假设输入特征图X∈RH×W×C,其中H,W分别为特征图高度和宽度,C为通道数。本地通道上下文为
式中:G为分组归一化(Group Normalization,GN)[16]函数;f1,f2为逐点卷积函数;δ为ReLU激活函数。
全局通道上下文g(X)与本地通道上下文c(X)的不同在于输入特征图先经过全局平均池化(Global Avg Pooling,GAP)得到YGAP,再经过逐点卷积、ReLU函数和GN处理得到g(X)。
式中(x,y)为输入特征图X像素点坐标。
MS-CAM输出特征图为
式中:σ 为Sigmoid激 活函数;⊗为逐元素相乘符号;⊕为广播相加符号。
全局通道上下文放大感兴趣的特征图权值,关注红外热像异常区域的显著特征;本地通道上下文关注小目标异常区域特征和边缘特征。将二者结合形成MS-CAM,可降低红外热像图中对比度不均匀等因素造成的干扰,进一步突出异常区域,提高异常区域分割精度。
2 实验验证
2.1 数据集
实验系统由YAW4306微机控制电液伺服压力试验机(加压机)、Optris PI450型红外热像仪(光学分辨率为382×288)和数据采集器(计算机)组成,如图3所示。
图3 实验系统Fig. 3 Experimental system
将实验煤样加工成50 mm×50 mm×100 mm(长×宽×高)的长方体试样。为使裂隙扩展更集中,方便识别处理,对部分煤样预制裂隙,之后进行单轴压缩受载破坏实验。红外热像仪记录实验结果,保存红外热像图后制作数据集,具体步骤如下。
(1) 将实验结果保存为3种加载破坏时期的红外热像图,分别为煤样出现宏观破坏时期、宏观裂纹扩展时期和完全破坏时期,如图4所示。共采集图像120张。加载破坏初期从图像中可明显看出裂隙大小和位置,如图4(a)所示;随着加载不断进行,煤样右上部分开始出现热异常,表明煤样破坏位置发生在此处,如图4(b)所示;加载结束时,煤样左边部分与右上部分均出现热异常,如图4(c)所示。
图4 煤样3种加载破坏时期红外热像图Fig. 4 Three infrared thermal images of coal samples during loading pressure period
(2) 使用LabelMe工具对煤样红外热像异常区域进行标注并生成标签。对红外热像图和当前受载情况下实际煤样图像进行对比,确定破坏区域位置(即红外热像图中的异常区域),并将红外热像图输入LabelMe工具,使用多边形手工标注出异常区域,并标记为1,如图5所示。
图5 LabelMe工具中煤样红外热像异常区域标注Fig. 5 Abnormal area tagging in infrared thermal images of coal samples in LabelMe tool
(3) 将经过步骤(2)处理的数据保存为Json文件,并转换为png格式图像,作为基于MS-CAM的U-Net模型输入。
(4) 对每张图像进行平移、旋转、镜像、剪切等数据增强操作,并通过调整图像亮度、加入高斯噪声等方式减小环境因素的影响。经数据增强后得到1 000张煤体红外热像图,部分图像如图6所示。
图6 部分增强图像Fig. 6 Partial enhanced images
2.2 实验设置与流程
实验通过基于Python的Pytorch深度学习框架实现。计算机配置:处理器为AMD R7 4800H,GPU为NVIDIA GeForce GTX 1650,显存为4 GB,采用CUDA10.0加速计算,内存为16 GB。
通常情况下,对于给定特定学习任务的初始卷积神经网络需通过训练上万张图像来确定权重,而本文中煤体红外热像图仅有1 000张,无法很好地训练模型。迁移学习[17]可在不同数据集之间共享相关特征,通过对网络进行预训练来调整权重,加快训练过程,使得确定权重仅需训练上千张图像即可完成。MS COCO数据集[18]包含超过30万张图像,图像中标注了多个标签,且文件格式与煤体红外热像数据集相同。因此,选择MS COCO数据集对基于MS-CAM的U-Net模型进行预训练,避免因数据集小而造成的过拟合现象。完成预训练后,采用建立的煤体红外热像数据集训练基于MS-CAM的UNet模型,得到最终权重。
基于MS-CAM的U-Net模型采用交叉熵损失函数来计算预测标签与真实标签之间的差异。交叉熵损失函数为
式中:qI,J为第I个样本第J个像素点的预测标签,其为0代表该像素点为背景,为1代表该像素点为目标;pI,J为第I个样本第J个像素点的真实标签;m为样本总数;n为像素点总数。
损失函数优化器选用Adam,学习率初始值设为0.001,批量大小为10。损失函数随训练次数变化如图7所示。可看出训练次数不超过150时,随着训练次数增加,损失函数值不断下降,且下降明显;训练次数为150~250时,损失函数值缓慢下降;训练次数达到250时,损失函数曲线开始变得平缓。训练次数过少易导致模型出现欠拟合,过多则易导致过拟合,使得模型无法很好地分割出异常区域。当训练次数达到280时,损失函数值为0.015,浮动值保持在0.001内。因此训练次数选择280。
图7 损失函数曲线Fig. 7 Loss function curve
实验流程如图8所示。首先,将煤体红外热像数据集中所有图像尺寸调整为256×256,从中随机抽取100张图像作为测试集,从剩余图像中随机选取80%作为训练集,20%作为验证集;其次,对基于MSCAM的U-Net模型参数进行初始化,采用MS COCO数据集对模型预训练后微调权重;再次,将煤体红外热像数据集输入基于MS-CAM的U-Net模型进行训练,对模型参数进行迭代优化,直到损失函数值满足要求,之后保存模型;最后,用测试集进行测试,得到分割结果,并比较分析。
图8 实验流程Fig. 8 Experiment process
2.3 实验结果与分析
分别采用Deeplab模型、U-Net模型、基于SENet注意力机制的U-Net(U-Net(SENet))模型及基于MS-CAM的U-Net(U-Net(MS-CAM))模型分割煤体红外热像异常区域,分割结果从主观和客观2个方面进行评价。前者通过观察图像分割结果进行评价;后者从精确率、F1分数、Dice系数[19]及平均交并比(Mean Intersection over Union,MIoU)[20]4个指标进行评价。精确率为像素判断为目标区域像素中真正为目标区域像素的比例。F1分数为召回率和精确率的调和平均数。 Dice系数为真实掩膜和预测掩膜重合区域的比例,取值为0~1。 MIoU为真实掩膜和预测掩膜交集与并集的比值,取值为0~1。精确率、F1分数、Dice系数和MIoU越大,表示红外热像异常区域分割效果越好。
采用相同的实验流程训练后,不同模型的分割结果如图9所示。从整体来看,4种模型均可大致分割出异常区域,但在异常区域边缘的分割结果有很大不同。Deeplab模型的分割效果最差,只分割出异常明显区域,忽略了边缘处区域,且图像1右下部分的异常区域未被分割出来。U-Net模型分割结果较Deeplab模型稍好,可有效识别边缘部分,但遗漏了部分较小的异常区域,且误分问题较大,出现了不同程度的过分割现象。U-Net(SENet)模型与U-Net(MS-CAM)模型分割效果较好,但前者分割的边缘较粗糙,且遗漏了一些较小的异常区域,后者分割的边缘平滑,且能将较小的异常区域分割出来,分割效果更符合实际情况。
图9 不同模型对煤体红外热像异常区域的分割结果Fig. 9 Segmentation results of infrared thermal images of coal samples by different models
为进一步观察注意力机制对模型分割的影响,采 用Grad-CAM算 法 绘 制U-Net(SENet)模 型 和U-Net(MS-CAM)模型分割结果的类激活热力图,如图10所示。可看出U-Net(SENet)模型关注区域比U-Net(MS-CAM)模型大,说明2种注意力机制的关注特征区域大小不同。U-Net(SENet)模型对真实异常区域之外的非目标区域产生关注,且对第2张图像进行特征关注时未集中在目标区域,产生了较大偏差;U-Net(MS-CAM)模型虽然关注区域小,但关注范围集中在异常区域,且能更好地关注边缘。
图10 U-Net(SENet)模型和U-Net(MS-CAM)模型分割结果的类激活热力图Fig. 10 Class activation heat map of segmentation results by U-Net(SENet) model and U-Net(MS-CAM)model
各模型分割结果的评价指标见表2。可看出U-Net(MS-CAM)模型4种评价指标均为最高:精确率为94.75%,分别较Deeplab模型、U-Net模型和U-Net(SENet)模型高6.10%,2.47%,1.29%;F1分数为94.94%,分别较Deeplab模型、U-Net模型和U-Net(SENet)模型高4.63%,3.27%,1.38%;Dice系数为94.65%,分别较Deeplab模型、U-Net模型和U-Net(SENet)模型高6.73%,3.07%,1.84%;MIoU为90.03%,分别比Deeplab模型、U-Net模型和U-Net(SENet)模型高6.25%,5.18%,2.75%。综合各评价指标可知,Deeplab模型分割效果较U-Net模型差,表明在小样本情况下,U-Net模型可很好地完成红外热像异常区域分割任务;U-Net(SENet)模型和U-Net(MS-CAM)模型均在U-Net模型基础上增加了注意力机制模块,可有效提高分割精度,但SENet模块仅关注全局通道,而MS-CAM不仅关注全局通道,还关注局部通道,可在关注明显异常区域的同时,更好地关注较小的异常区域和边缘区域。
表2 不同模型分割结果评价指标对比Table 2 Comparison of evaluation indexes for segmentation results of different models %
3 结论
(1) 将红外热像和深度学习相结合,提出了一种基于MS-CAM U-Net模型的煤体红外热像异常区域分割方法。该方法包括2个步骤:① 由红外热像仪获取煤体红外热像图,然后创建煤体红外热像数据集,采用LabelMe工具对图像进行标记,并通过Python将图像转换为png格式后进行数据增强。② 采用MS COCO数据集对基于MS-CAM的U-Net模型进行预训练,然后采用煤体红外热像数据集训练模型,直至损失函数收敛。采用训练好的模型对煤体红外热像异常区域进行分割。
(2) 基于MS-CAM的U-Net模型是在U-Net模型的编码器中引入MS-CAM,使得模型不仅关注煤体红外热像异常区域的显著特征,还关注异常区域小目标特征,有效提高了异常区域分割精度。
(3) 实验结果表明,基于MS-CAM的U-Net模型对煤体红外热像异常区域分割的精确率、F1分数、Dice系数和MIoU分别为94.75%,94.94%,94.65%,90.03%,均优于Deeplab模型、U-Net模型和基于SENet注意力机制的U-Net模型。