基于多特征融合解码器的矿物实时分割
2022-10-17梁秀满薛文强牛福生张晋霞
梁秀满,薛文强+,牛福生,张晋霞
(1.华北理工大学 电气工程学院,河北 唐山 063210; 2.华北理工大学 矿业工程学院,河北 唐山 063210)
0 引 言
工艺矿物学工作人员操作显微镜鉴定矿石对专业知识和实践经验要求很高,方法原始且工作耗时长,使用计算机快速分割出矿石显微图像中成分对工艺矿物学的科研人员有着重大意义,因此逐渐受到学者们的关注,如呼和等[1]、朱磊等[2]分别采用超像素和模糊C均值聚类算法在砂岩图像分割上取得良好的效果,但是由于显微镜下矿石图像颜色及纹理特征复杂多样[3],一些矿物采用传统图像处理方法很难将其分割,随着近几年深度学习语义分割的发展,此类矿物分割成为了可能,如Filippo M P等[4]采用语义分割网络对反射光显微镜图像中环氧树脂不透明和非透明矿物进行分割,本文算法的分割任务是在磁铁矿石显微图像下分割石英,属于二分类任务。
在过去的几年中语义分割的二分类分割方案逐渐成熟,如学者们在U-net的基础上进行改进分别提出了U-Net++[5]和U-Net3+[6],Gu等[7]在U型网络中引入空洞卷积和金字塔池化,使得分割精度进一步提升。然而一块矿石光薄片尺寸为3.5×3.5 cm,在50倍物镜的显微镜下需要拍摄上千张照片才能拍完全貌,采用上述分割策略对这些照片分割需要花费大量的时间。
实时语义分割网络通过平衡神经网络的运行速度和分割精度推动了语义分割网络更广泛的应用[8-11],本文受到实时语义分割网络DFANet[11]中所提出的特征复用结构的启发,对U型网络的解码器进行改进,提出了多特征融合解码器结构,并采用轻量化ResNet-34[12]为编码器设计了MA-net网络,因其在运行过程中不断进行特征补充,网络通道数可以极大缩减,进而提高实时性,在磁铁矿石显微图像数据集上取得了良好分割效果。
1 分割任务及数据集
本文分割任务为在磁铁矿显微图像下分割石英,如图1中标签白色区域为石英,考虑到磁铁矿显微图像语义信息不复杂,人工标注成本过高,制作的数据集中训练数据集80张,测试数据集20张,采用垂直翻转、水平翻转、随机旋转n个90°、仿射变换和随机平移等策略的组合对图像进行增强。
在采用以上数据增强的情况下为了进一步提高数据的多样性,并且降低训练过程过拟合现象,本文提出了一种区域克隆数据集增强方法,在训练过程中从数据集中随机克隆另外一张图片的部分区域到索引图像,同时标签也执行相同操作。此种方法应用到矿物显微图像数据集中增加了数据集丰富度,本文实验部分有对该方法的验证。如图2所示为区域克隆数据增强方法。
2 网络模型
2.1 网络结构
本文网络的整体结构为编码解码结构,传统的编码器和解码器采用单一路径的方式下采样和上采样,各个过程联系不紧密,并且深层特征图很难在解码的过程中恢复细节信息, U型网络采用跳跃连接的方法将编码器中浅层的细节信息放到解码器中进行特征补充,但是粗糙的融合必然会导致许多细节信息的丢失,因此网络的各个阶段需要有较多的通道数以保证可以提取到更多的信息,这样导致模型参数多,计算成本增加。文献[11]提出了一种阶段性特征复用结构,将编码器部分拆分成多个阶段,前一阶段的最终输出特征图放大后作为下一阶段的输入,每个阶段特征提取的过程中融合前一阶段的特征图,该方法使得网络联系更加紧密,由于该结构在各个阶段中均有多个阶段的特征图对空间信息进行补充,相比于传统结构可以极大压缩特征图通道数,从而缩减参数量,然而DFANet相比于U型网络在二分类任务中推理速度慢,并且对于连续下采样造成的空间损失恢复能力较差[13],U型网络和阶段性特征复用结构如图3所示。
本文结合文献[11]提出的特征复用结构和编码解码结构提出了一种聚合多个阶段特征的解码器结构,该策略在反复进行编码和解码操作过程中融合所有同尺度的特征图,编码器特征图和解码器特征图融合后再一次进行编码可增加感受野使得对大目标分割更全面,同时可以进一步学习到融合特征图的相关性,使得融合更恰当。该策略既具有U型网络恢复空间信息的能力,又具有特征复用结构特征图联系紧密的特点,本文采用多特征融合解码器结构和轻量化ResNet-34搭建了MA-net如图4所示。
在深度卷积神经网络中,往往浅层的特征图尺寸较大,计算量受通道数影响也更加的敏感,因此本文第一个卷积层采用了16通道,编码器参数和输出通道数见表1,其中“/2”表示2倍下采样,“×N”表示模块个数,“(N1,N2)”分别表示卷积层输入通道数和输出通道数,同时借鉴了LinkNet[9]的解码器结构,将第一个卷积核输出通道数缩减为输入的1/4,并将此作为第二个卷积层的输入,这样每个解码器块的输入和输出通道不变的情况下参数量极大减少,解码器结构参数见表2,其中“*2”表示2倍上采样。
表1 编码器模块参数
2.2 注意力机制
注意力机制可以使用深层的信息来指导前馈网络,并建立远程依赖关系[14],首先进行全局平均池化以保持最大的感受野,再通过对每个特征图的通道分配可学习的权值,通过训练可以使模型更加关注于分类的主要物体[15]。BiSeNet[10]、DFN[16]都引入了通道注意力机制,使得分割任务达到了世界先进水平,注意力机制在不断发展中出现了多个版本,本文采用文献[10]中提出的ARM模块,如图5所示。
表2 解码器模块参数
2.3 残差多内核池化
在MA-net网络的末尾引入了在文献[7]中提出的残差多内核池化(residual multi-kernel pooling,RMP),它主要依靠多个有效的视野来检测不同大小的对象[7],该模块使用4个不同大小的池化内核收集上下文信息以丰富高级语义信息,然后通过双线性插值获得与原始特征图相同大小的特征并通过1×1卷积将维度缩减为1,最后,将原始特征与上采样的特征图合并通道,该RMP结构可以应对图像中对象尺寸的巨大变化。该模块引入的参数较少,仅为388个参数,虽然会导致计算成本稍有增加,但是获得的准确率提升更加重要。如图6所示为RMP模块。
2.4 FRN归一化
本文使用滤波器响应归一化(filter response normalization,FRN)[17]取代(batch normalization,BN),同时使用对应的激活层阈值线性单元(thresholded linear unit,TLU)代替ReLU[18],FRN可表示为
(1)
(2)
其中,x为一个N维度(H×W)的向量,可以看到其并没有对batch的依赖。γ和β为可学习的参数,与BN层减去均值然后除以标准差的归一化方法不同的是FRN减去二次范数的平均值。此方法可消除卷积和非线性激活带来的尺度问题,有助于模型训练。公式里的是一个很小的正常量,以防止除0。
为了解决ReLU激活产生0值的问题,同时在文献[17]提出FRN之后采用的阈值化的ReLU,即TLU对训练性能提升很重要。TLU表达式如下,其中τ是一个可学习参数
zi=max(yi,τ)=ReLU(yi-τ)+τ
(3)
3 实验结果与分析
3.1 实验设置
实验采用的评估指标为Dice系数,并且不对测试集进行任何的增强,例如多尺度或者多角度以使得预测结果质量更高[11]。Dice系数是一种集合相似度度量函数,通常用于计算两个样本的相似度,值的范围为0到1,分割最好时值为1,最差时为0,Dice表达式如式(4)所示,其中TP、FP和FN分别代表真阳性、假阳性和假阴性的数量
(4)
实验操作系统是Arch,Pytorch深度学习框架,批处理(batch size)为8,Adam优化器,采用Dice系数损失函数[19],输入图像尺寸均为512×512。
3.2 通道数设置
编码器输出层通道数是网络加速的主要限制之一,本次实验采用ResNet-18为编码器基准网络在磁铁矿显微图像数据集上对3组通道数组合进行实验,见表3,可以看到随着编码器每个层输出的通道数增多,计算量明显增加,通道数策略2的分割精度比策略1有较大的提升,策略3相比于策略2分割精度近乎不变,我们认为分割任务不复杂,过多的参数只会产生冗余,并且网络结构限制了其提取语义信息的能力。
3.3 编码器基准网络选择
为了进一步探索MA-net编码器基准网络深度对网络性能的影响,并选择合适的编码器网络,本实验采用通道策略2,在磁铁矿显微图像数据集上对比轻量化ResNet-18,ResNet-34的分割表现,为了验证网络深度和通道数同时增加对分割性能的影响,增加一组采用原始参数ResNet-34的对照实验,用ResNet-34-B表示,表4展示了3种编码器基准网络的分割表现和运算量,可以发现网络加深对模型分割性能有一定的提升,过深的网络和过多的通道数作用不大,计算量反而急剧增加。之后实验均采用轻量化ResNet-34,通道数策略2。
表3 MA-net通道数对比实验
表4 MA-net基准网络对比实验
3.4 模型分析
本文在磁铁矿显微图像数据集上进行了MA-net消融实验,分析各模块性能,其Dice系数、参数量、计算量见表5,可以看出注意力机制ARM对模型分割精度有一定的作用,采用残差多内核池化RMP对模型的精度提升较大,但是增加的运算量是最少的,引入FRN归一化方法分割精度也稍有提升,同时计算量反而降低。
表5 MA-net在矿物分割数据集上的消融实验
3.5 磁铁矿显微图像分割效果
采用本文提出的MA-net和U-net,Ce-net在磁铁矿显微图像数据集上进行对比实验,实验结果见表6,可以看到MA-net分割精度都超过其余两个网络,同时参数量和计算量是最小的。
表6 磁铁矿显微图像数据集上模型对比实验
图7为分割效果对比图,可以看到Ce-net在分割效果上远低于MA-net,Ce-net分割图像中容易被一些高光部分干扰,虽然整体轮廓分割效果较好,但是图像内部存在大量的孔洞,而MA-net很少出现此种情况,Ce-net虽然在编码器末端加入了空洞卷积和多内核池化增加了感受野,但是编码器特征图和解码器特征图采用了简单相加的方式融合,在上采样的过程中必然会发生损失信息和融合不当的情况,MA-net所采用的多特征融合解码策略能够充分提取深层特征与浅层特征的信息,学习其相关性来处理分割结果中的大目标,极大克服了上采样过程中信息损失和融合质量差的问题,同时每次融合浅层的特征图后均进行下采样,扩大感受野有利于大目标的空间信息补充。
3.6 模型对比实验
为了更公平分析模型性能,实验另外增加两个标准公开数据集对模型性能进行测试,分别是LUNA挑战赛提供的肺部分割数据集,包含267个2D样本,本文采用其中的80%用于训练,20%用于测试;DRIVE数据集,分割任务是视网膜检测,在DRIVE中包含40张图片,分为20张用于训练,20张用于测试。两个数据集中LUNA数据集的分割目标较大。
我们将提出的MA-net和先进的算法在两个数据集上进行比较,如表7所示在LUNA数据集上超越了其余两者,而在DRIVE数据集下分割精度远低于其余网络,分析原因可能是MA-net网络为了降低计算量第一次下采样未参与跳跃连接,同时通道数极大缩减导致分割微小目标能力较差。
首先进行小目标的分割能力分析,如图8所示为在DRIVE数据集下分割眼底血管对比结果,DRIVE数据集中图像语义信息简单,但是分割微小目标是难点,从图中可以看出U-net分割微小目标的效果最好,Ce-net和MA-net可将比较大的目标分割出,MA-net忽略了绝大多数的微小目标,分析原因,在深度神经网络中,浅层特征图细节信息多,深层特征图全局信息较多,U型网络在解码过程中直接融合浅层的特征图进行细节恢复,而MA-net在解码的过程中对浅层的特征图再次进行了一次下采样,增加了大目标的权重,导致了对微小目标的检测能力降低。
表7 不同数据集上模型对比实验结果
接下来进行大目标分割能力分析,如图9所示为在LUNA下MA-net和Ce-net的分割效果图,可以看出MA-net分割效果更加接近于真实标签,Ce-net分割图像中存在一些孤立的像素点,而MA-net很少出现此种情况,相比于Ce-net,MA-net在融合浅层特征图后进行了多次的卷积操作,特征表示能力更强,多个特征的融合效果更好,极大避免了孤立像素点的出现,从在LUNA数据集中的表现可以看出MA-net在分割较大目标时通道数减少导致的影响更小。
3.7 区域克隆数据增强方法对比实验
对所提到的区域克隆数据增强方法进行对比实验,采用的数据集分别是LUNA、DRIVE和矿物显微图像数据集,结果见表8,可以看出在LUNA数据集上区域克隆数据增强方法有明显的负数作用,对于其余两个数据集则有一定的效果。因为LUNA数据集图像分割目标与周围的信息具有较强的相关性,随意的替换信息可能会导致图片语义信息破坏,造成标签和原图语义信息不匹配,从而在训练时给模型造成干扰。而DRIVE数据集和矿物显微图像主要是靠色彩分割,而且目标分布比较随机,采用此方法可以丰富数据,优化模型学习效果。
为了进一步分析该数据增强方法的效果,在DRIVE数据集上进行实验,如图10所示为采用该数据增强方法和未采用时在测试集上的分割效果对比,从曲线中可以看到采用该数据增强方法时Dice系数波动较小,并且最终获得了较高的分割效果,分析原因,采用区域克隆数据增强方法将两个图片的信息组合,可以有效降低图片之间的差异进而降低数据的方差,由于是随机图片,随机位置进行组合,每次训练输入的图片都不相同,模型很难在某一类图片上过拟合,同时不同图片之间的组合丰富了数据,因此该数据增强方法可以有效提升模型的训练结果。
表8 区域克隆数据增强方法对比实验
4 结束语
本文提出了一种多特征融合的解码器结构,并结合轻量化的ResNet-34搭建了MA-net网络,在编码器末尾添加残差多内核池化增强对多种尺寸目标的分割效果,增加通道注意力机制提高分割精度,采用FRN消除了训练过程中网络对batch的依赖,同时由于网络相比于单一路径的解码器结构增加了下采样过程,在编码和解码的过程中聚合了多阶段的特征信息,使得MA-net与其它几种U型网络比较,网络特征图之间联系紧密,通道数极大缩减,减少参数的同时,分割精度也有保证。
通过在LUNA、DRIVE和磁铁矿显微图像数据集上测试分析得出,MA-net在分割较大目标时表现突出,不擅长于对微小目标的分割,在小目标分割方面需要优化和改进。将MA-net用于在磁铁矿石中分割石英的任务,Dice系数达到了0.963。
为了使用少量训练样本数据而获得较高的分割效果,本文采用随机克隆数据集中另外一张图片的部分区域到索引图像的方法进行数据增强,经过验证分析,发现此方法可应用于DRIVE和矿石显微图像等分割目标空间位置比较随机的分割任务中,可有效降低过拟合并提高分割精度。