高分辨率皮肤黑色素瘤图像的两阶段式分割算法

2023-11-18贵向泉张馨月

计算机工程 2023年11期

贵向泉，张馨月，李立

（兰州理工大学计算机与通信学院，兰州 730050）

0 概述

皮肤恶性黑色素瘤是最常见的皮肤恶性肿瘤之一［1］，其致死率逐年上升，已成为一种严重的公共卫生问题。在前期诊断过程中，由于医生的临床经验和工作环境不同，医生在对皮肤切片的黑色素瘤斑块进行手动分割时，需要耗费大量的精力和时间，这样很容易造成漏诊和误诊的情况。因此，皮肤黑色素瘤的自动化精准分割方法一直以来都备受关注。

现有的黑色素瘤自动分割方法主要分为基于深度学习的方法和非深度学习的方法。非深度学习的方法又分为传统方法和基于机器学习的方法。传统皮肤黑色素瘤的分割方法主要分为阈值分割、基于边缘检测的分割［2］和基于区域的分割。CELEBI 等［3］提出一种包含3 种阈值化算法的方法，实现了对皮肤黑色素瘤病灶边界的自动检测和分割；WONG等［4］采用一种迭代合并随机区域的方法，从宏观图像中分割出与皮肤病灶对应的区域，并引入基于区域统计的合并似然函数，以随机方式确定合并的区域，有效降低了分割误差。之后，机器学习方法掀起了图像分割技术的热潮。ZHOU 等［5］提出一种基于均值位移的模糊c-均值算法，有效地检测出了皮肤病灶斑块的边界；IMTIAZ 等［6］提出了一种结合传统图像处理和机器学习的方法，也取得了不错的成绩。但总体来说，这类方法的原理简单，对图像本身的特征提取不足，导致精度和最终的分割效果并不理想。

随着科技的发展，基于深度学习的方法逐渐成为主流，这种端到端的网络避免了一些繁琐的处理步骤，大大增加了分割的效率。卷积神经网络（Convolutional Neural Network，CNN）的应用，使得图像分割任务得到了飞速的发展，直到如今，很多深度学习算法依旧使用着CNN 的思想。ATTIA 等［7］采用一种结合深卷积和递归神经网络的联合结构用于皮肤病变分割，使得分割结果优于仅依赖CNN 的方法。全卷积神经网络（Fully Convolutional Network，FCN）［8］将卷积神经网络末端的全连接层改为卷积层，使得输出结果为标记好的图像而不是概率值，但很显然，这种方式仅仅是对所有的像素进行了分类，并没有考虑到图像的全局上下文关系，且浪费了多尺度特征图的大量语义信息，将其应用在皮肤黑色素瘤分割任务中会大大影响病灶区域的分割精度。与此同时，以编码器-解码器为主要结构的U-Net［9］、SegNet［10］等网络架构被提出，相较于基本的卷积网络，这种结构对多尺度图像特征的提取和利用更加充分。文献［11-13］方法将U-Net 与其他网络的优势有效结合，充分利用U-Net 网络跳跃连接的结构特点，融合多尺度图像特征，提升了病灶斑块的分割精度；NINH 等［14］提出一种基于改进SegNet 的FCN 结构，减少了原始SegNet 模型中的下采样和上采样层，使得网络总参数更少，但是在分割准确度上优于SegNet 和FCN。之后，注意力机制［15］创新性地将自然语言中处理上下文联系的方法应用到图像处理领域，实现了特征图全局上下文关系的提取。WU等［16］提出一种新颖高效的自适应双重注意模块，并将2 种全局上下文建模机制集成到该模块中，提升了算法的性能；AGHDAM 等［17］提出一种基于注意力机制的U-Net 架构，通过结合注意力机制，进一步改进了跳跃连接中使用的经典串联操作，证明了注意力机制对皮肤病灶分割的有效性。此外，一些特征增强方法［18-19］有效加强了重要的图像特征和通道信息，同样提升了算法的性能。

然而，由于大部分皮肤病灶切片的分辨率高，现有算法在计算机性能需求和算法准确度上不能达到良好的平衡。上述算法和很多其他算法为了减少计算机显存消耗，要么将原图像重新定义为很小的尺寸，要么将其切割为很多图像块，这样必然会损失大量的图像原始信息，对实际的分割结果造成影响。而高精度的方法，尤其是基于注意力机制的方法，更加需要巨大的显存资源，使得硬件实现过程变得困难。因此，研究高分辨率皮肤黑色素瘤图像在硬件上消耗友好且计算准确度高的分割算法具有迫切的应用需求。针对这些问题，本文具体进行以下工作：

1）使用编码器-解码器的基础网路架构，在编码器特征提取过程中，采用一种三层金字塔结构的全局平均池化模块来增强特征图全局语义信息的提取，以此获取病灶斑块的不规则连续边界信息，提升算法的精度。

2）采用一种多尺度语义融合分支，增强各层特征图语义信息表征能力的同时融合不同尺度下的图像特征，充分利用各层特征图所包含的语义信息，进一步提升算法精度。

3）采用一种全局到局部的两阶段式精细分割策略，局部分割网络对剪裁后的原始图像进行计算，并通过与全局网络中对应层的特征图共享图像特征的方法来获取全局上下文的语义联系，在减少计算机显存消耗的同时提高分割精度。

1 本文算法

1.1 获取全局空间信息的过程

在神经网络中，感受野的大小可以大致代表网络获取全局语义信息的能力，小的感受野会使网络漏掉重要的全局语义信息，过大的感受野又会对特征图的细节内容欠表示。ResNet［20］已经被广泛使用在各种图像特征提取的方法中，其感受野在理论上大于输入图像大小，但在实际的实验中，其感受野远远小于理论值，一些重要的全局信息依旧没有很好地融合到特征图中。因此，本文使用一种多尺度的全局金字塔平均池化模块（Global Pyramid Average Pooling Module，GPAPM）来加强特征图全局语义信息的提取。

全局平均池化是提取全局语义信息一种很好的方式，其主要有两点优势：一是整合了特征图的全局语义信息，对全局空间信息的转移具有很好的鲁棒性；二是该层没有参数，不但可以防止数据过拟合，而且有效减少了计算机算力消耗。然而，单一的全局平均池化层能够表征的全局信息有限，会丢失全局空间信息不同子域之间的联系，使得皮肤病灶边界的分割效果不明显。本文通过金字塔结构来解决这一问题，使用多个不同尺度的平均池化层，得到不同尺寸下全局信息的表征，将来自同一感受野下不同大小子域的信息结合起来，使得全局语义信息表征更加丰富。

由于皮肤病灶斑块区域占原始图像的比例大小有很大的差别，过大和过小的池化尺度均不利于特征图全局信息的提取，因此使用池化尺度大小为2、3和6 的三层金字塔结构，该模块的具体结构如图1 所示。输入的特征图经过3 个不同尺度的平均池化层，分别得到大小为2×2、3×3 和6×6 的中间层特征图，这些特征图是3 个不同尺度下图像全局信息的表征。为了得到更加全面的全局信息，需要对这3 个不同尺度下的信息表征进行融合，融合时需要先将3 个特征图的通道数调整到相同维度，再通过双线性插值将其上采样至与输入特征图相同尺寸大小，然后把不同层级的特征图进行拼接，得到最终的特征图。本文算法将此特征图作为特征提取阶段最高层语义特征图，增强其全局语义信息的表征。

图1 全局金字塔平均池化模块Fig.1 Global pyramid average pooling module

1.2 高层特征图语义信息嵌入低层特征图的过程

神经网络在图像特征提取过程中，图像经过深层次的卷积之后，高层和低层特征图之间存在显著的差异。高层特征图具有更丰富的编码语义信息，但图像的低分辨率导致其前景图像的位置信息和空间信息十分稀少。反之，低层特征图包含丰富的位置和空间信息，且分辨率更加接近原始图像，但其语义信息稀缺。然而图像的语义信息和空间位置信息对于图像分割任务来说同等重要，因此，采取将高层特征图语义信息融入低层特征图的方法，使得低层特征图在包含本身丰富的空间位置信息的同时，能够包含所有高层特征图的语义信息，将图像具体的空间信息和抽象的语义信息有效地结合，实现多尺度特征信息的融合，充分利用各层特征图的语义信息。

通常情况下，语义特征融合的方式为对高层低分辨率的特征图进行上采样，再将其与低层高分辨率的特征图像素按位相加，用公式表达为：

其中，残差项F(xl)表示当前低层高分辨率特征图的语义信息。显然，这种普通方式中F(xl)本身所包含的语义信息很单一，即使有高一层特征图上采样添加的信息，其包含的语义信息依旧很少。然而笔者希望在低层特征图中融合尽可能多的高层特征图语义信息，因此，使用一种轻量级的多尺度特征融合的语义嵌入分支（Semantic Embedding Branch，SEB）［21］，使得每一层的特征图能包含高层特征图的语义信息，该方法可用公式表示为：

在计算残差项F(xl,xl+1,…,xL)时，为了方便不同尺度特征图语义信息的融合，需要先将所有高层特征图的通道数降维至最低层特征图大小，保证所有特征图都在同一维度进行像素级的运算，该计算过程如图2 所示。

图2 语义嵌入分支模块示意图Fig.2 Diagram of semantic embedding branch module

1.3 两阶段式精细分割策略

皮肤恶性黑色素瘤块的临床表现形式复杂多样，病灶区域的大小和形状也不尽相同。小的斑块使得切片图像中前景区域和背景区域像素相差过大，负样本所占像素比例要远大于正样本的比例，这就造成了严重的样本不均衡问题，大大影响了模型对正样本的学习能力。而使用两阶段式的分割策略，通过第一阶段分割任务的结果对原始图像的前景区域进行不规则剪裁，可以平衡第二阶段任务输入图像的正负样本比例，大大增强模型对正样本的学习能力。

本文的网络结构在GLNet［22］模型的基础上进行改进，将整个结构分为全局和局部分2 个分支。

在第一阶段的全局分割任务中，将全局金字塔平均池化模块和多尺度语义特征融合分支模块嵌入到以ResNet50［20］为主干的FPN 网络［23］中，得到粗略的全局分割结果，以此来确定局部精细分割的目标区域，该全局分割网络模型如图3 所示。

图3 全局分支网络模型Fig.3 Global branch network model

在第二阶段的局部分割任务中，将原始全分辨率图像中被剪裁的边界前景作为局部分支的输入。该局部分割网络与全局分割网络模型的基础结构相同，但选取自下而上阶段ResNet50 中第2～5 层卷积块的特征图、FPN 中自上而下平滑阶段的特征图与全局分割网络中对应层的特征图共享图像特征，并采用特征映射正则化来防止像素分类时的过拟合，将其拼接聚合为最后的分割结果。

该两阶段式分割过程如图4（a）所示，将原始图像输入全局分支网络中，得到一个大致的预测结果，根据这个结果对原始图像和标签图像进行边界剪裁，并将剪裁后的原始图像输入到局部分割网络中。局部分支与全局分支网络对应层共享图像特征的过程如图4（b）所示，最终的分割结果由3×3 大小的卷积层将2 个分支结果聚合而成。此粗略到精细的分割过程仅将边界框内的特征映射从全局分支共享到局部分支，边界框以外的所有区域都被预测为背景。由于在此过程中，通过剪裁前景区域的宽松边界，使得局部分割仅在尺寸较小且类别平衡的图像上训练，这种选择性的精细处理不但降低了计算成本，而且在对剪裁的较小的图像进行下采样时，图像信息损失较小，进一步提升了算法的性能。

图4 两阶段式精细分割策略示意图Fig.4 Schematic diagram of two-stage fine segmentation strategy

2 实验细节

2.1 实验环境与数据集

实验的硬件环境为RTX 3090 显卡，24 GB 运行显存，镜像环境为ubuntu18.04，软件环境为Python3.8、PyTorch1.9.0 和Cuda11.1。

实验采用的数据集为ISIC2018，该数据集由国际皮肤成像协作组发布，是全球最大规模的皮肤镜图像数据集，其中的病变图像是用皮肤镜从不同机构接受皮肤癌筛查的患者身体不同部位中获取的，包含2 594 张图像和对应的由专家手动标注的标签图像，数据集的部分图像如图5 所示。可以看到，皮肤病灶在颜色和形态上具有很大的多样性，有的病灶区域几乎占满整个切片图像，有的却只是很小的一个斑块，这个特点增加了皮肤病灶分割任务的难度。

图5 ISIC2018 数据集部分图像Fig.5 Partial images of ISIC2018 dataset

ISIC2018 数据集图像的分辨率普遍都很高，且绝大多数都是分辨率超过4K 的超高分辨率图像，其分辨率的统计结果如表1 所示。

表1 ISIC2018 数据集图像分辨率统计Table 1 Image resolution statistics of ISIC2018 dataset

按照8︰1︰1 的比例划分数据集，分别得到训练集、验证集和测试集，每个数据集的划分结果如表2所示。

表2 ISIC2018 数据集划分Table 2 Division of ISIC2018 dataset 单位：张

2.2 参数和评测指标

实验采用Focal Loss［24］作为第一阶段全局分割的主体损失函数，以此来缓解第一阶段对原始全分辨率图像分割时的样本不均衡问题，使用均方损失函数作为第二阶段特征共享时的辅助损失函数，两者权重相等，均为1。同时，采用Adam 优化器，学习率1×10-4用于训练全局分割网络，2×10-5用于训练局部分割网络，使用Poly 学习策略来调整学习率。全局分割网络遍历训练60 个轮回，局部分割网络训练30 个轮回，每个轮回批处理的图像数量为16 张。训练模型并进行验证，保存得分最高的一次结果，在测试数据集上测试模型的有效性。

实验通过使用命令行工具gpustat 来实时测量模型在处理一张图片时的显存使用情况，以此评判算法在硬件上的优势，同时使用评测指标准确度（ACC）和图像交并比（IOU）来对比算法在计算性能上的优劣，其表达式如式（3）、式（4）所示：

其中：表达式右边的参数都由混淆矩阵得到；TP表示正确分割的病灶块像素，即真正例；FP表示错误分割的病灶块像素，即假正例；TN表示正确分割的背景像素，即真反例；FN表示错误分割的背景像素，即假反例。准确率表示所有正确分类的像素占所有像素的比例，数值越大表示算法的分割准确度越高。图像交并比表示算法预测分割结果与真实分割结果之间的重叠率，其值越大，表示算法对病灶斑块的分割结果越接近真实结果。

3 实验结果与分析

3.1 消融实验结果与分析

本文以FPN 网络作为基础，添加的模块为全局金字塔平均池化模块、多尺度特征融合的语义分支模块和两段式全局到局部精细分割策略（G→L），为了验证上述模块的有效性，进行模块的消融实验，逐步将各模块添加到网络中，消融实验结果对比如表3所示，其中加粗表示最优值，下同。

表3 消融实验结果对比Table 3 Comparison of ablation experimental results %

从表3 中可以看出，GPAPM 模块（FPN-GP）对原FPN 网络性能的优化较为明显，其在分割准确度上提升了3.4 个百分点，在图像交并比上提升了2.5 个百分点，相比较而言，SEB 模块（FPN-S）的提升效果较为细微，在分割精度和交并比上仅提升了0.4 和0.5 个百分点，但将两者均添加到模型中，模型的性能优化又很显著。由此可以看出，GPAPM 和SEB 模块能有效提升算法的性能，且在经过第二阶段由全局到局部的精细分割之后，各模块的分割性能又均得到了明显提升，进一步说明由粗到细的分割方法可以有效地解决类别不平衡问题，更好地获取全局上下文信息，优化模型的性能。

3.2 对比实验结果与分析

为了进一步分析本文算法的有效性，将本文方法与FCN-8s、FCN-32s、DeepLabv3［25］、PSPNet［26］和GLNet 进行对比实验。对ISIC2018 数据集进行基本的预处理之后，分别对以上方法进行训练，每一种网络结构都训练60 个轮回，得到的结果如表4所示。

表4 实验结果对比Table 4 Comparison of experimental results

从表4 中可以看出，本文提出的算法比GLNet在分割准确度和图像交并比上分别提高了2.8 和2.5 个百分点，且在所有对比实验中达到了最佳的性能。虽然显存占用比GLNet 增加了7.2%，但是相比较于其他对比算法，显存占用减少了22.8%～36.9%，在硬件方面具有明显的低显存消耗优势。可见在两阶段式分割策略中，仅处理剪裁区域内像素的方法可以有效减少计算机显存的消耗，但相较于同样使用了这个方法的GLNet，多尺度特征融合分支为了尽可能利用特征图的语义信息，对高层特征图进行了多次计算，这个过程会增加一些显卡内存的消耗，使得其对显存的需求略高于GLNet。

为了更加直观地对比算法在计算性能上的优劣，给出6 种网络实验结果的可视化对比图，如图6所示，其中，图6（a）为原始皮肤切片，图6（b）为对应的医学专家标注的病灶斑块真实图像。观察图6（c）和图6（d）的图像明显看到，FCN 系列算法对特征图像素间的全局关系的忽视导致病灶斑块的漏检和误检现象较为严重，分割效果明显很差，可见像素间全局关系对分割任务的重要性。图6（e）图像相较于前两种方法，对病灶斑块没有很明显的误检，但漏检现象还是较为明显，可见DeepLabv3 通过串行多个不同空洞率的空洞卷积来捕获全局上下文关系的方法是具有优良效果的。PSPNet 融合了4 种不同尺度的池化模块，聚合了不同区域的全局上下文信息，提高了全局信息提取的能力，增强了分割性能，这一点从其结果上对病灶块更少的漏检中可以看出。GLNet的全局-局部的分割策略，使得特征图全局和局部的语义信息双向共享，从分割结果来看，其预测的标注图像在形态和轮廓上相较于前几种方法更加光滑且接近真实标注图像，但由于其在特征提取过程中没有增强全局语义信息提取，且对多尺度语义信息的利用不够充分，导致分割结果依旧欠佳。

图6 实验结果可视化对比图Fig.6 Visualization comparison chart of experimental results

相比之下，本文算法的预测结果，无论是病灶斑块大小还是边界形态，都更加贴近于真实的标注图像。全局金字塔平均池化模块在特征提取的最后一层有效结合了多尺度的全局语义信息，增强了特征图全局语义信息的表征能力，对病灶斑块的边界信息表示提供了帮助。多尺度特征语义融合分支将高层特征图语义信息与低层特征图空间信息融合，有效避免了对非病灶斑块的误检和漏检。两阶段式的精细分割策略减少了数据集正负样本不均衡问题带来的影响，且通过全局与局部网络对应层特征图共享图像特征的方法有效获取了图像的全局上下文联系，进一步优化了分割结果，预测出比其他对比算法都更加准确的标注图，使得本文算法在计算性能上明显优于其他对比算法。

4 结束语

皮肤病灶自动化分割算法在计算机辅助治疗恶性黑色素瘤中具有重要意义。面对超高分辨率的皮肤病灶切片，本文提出的算法融合轻量级的网络架构，充分利用了特征图的全局语义信息，并充分融合了多尺度特征图的语义信息，采用的两阶段式分割策略进一步优化了分割结果并减少了计算机显存的消耗。实验结果证明，相较于其他对比算法，本文算法更加适用于高分辨率背景下的皮肤病灶分割。但在特征融合过程中，本文算法仅向低层特征图融合了高层特征图的语义信息，因此在今后的研究中，可以考虑同时将低层特征图的空间位置信息融合到高层特征图中，双向的信息融合对高分辨率皮肤黑色素瘤图像分割精度的影响还有待验证。