基于多尺度特征选择网络的新冠肺炎CT图像分割方法

2023-05-31厉恩硕张智诚耿冰研唐璐

现代仪器与医疗 2023年2期

厉恩硕张智诚耿冰研唐璐

（徐州医科大学医学影像学院，徐州 221004）

新冠肺炎（Corona Virus Disease 2019，COVID-19）在全球范围的爆发严重影响了人民的正常生活［1］，该病毒传播速度快、变异种类多，典型起病症状为呼吸困难、发热、咳嗽，严重时可能会引起多器官衰竭，威胁患者的生命。及时的病情评估对疾病的治疗有重要意义。在新冠肺炎的诊断中，CT扫描可以帮助医生准确评估病情的严重程度，并指导治疗方案。然而，在CT扫描中，医生需要仔细检查每个CT图像，识别出患者肺部的病变区域。这个过程非常费时，而且容易出现人为错误，特别是在大规模疫情爆发期间。因此，自动化分割CT图像中的病变区域是当前的研究热点。

近年来，深度学习技术在医学图像分析领域中得到广泛应用［2］，2015年Ronneberger等［3］提出的U-Net网络结构，已经被证明可以对CT图像中的病变区域进行有效分割［4，5］。Zhou等［6］通过将空间注意模块和通道注意模块融合到一个U-Net架构中，重新计算权重特征来表示空间和通道注意力的方法，用于捕获丰富的COVID-19病灶类别信息。Fan等［7］提出的Inf-Net模型使用一个并行解码器提取高级别特征信息并生成全局注意力特征图，通过隐式反向注意和显式边缘注意对边界信息进行提取；Liu等［8］提出了nCoVSegNet分割模型，利用注意感知特征融合和大感受野进行有效的COVID-19感染分割，解决边界对比度低和感染变异大的问题。

尽管针对CT图像中新冠肺炎病灶区域分割问题已经有大量的方法被提出，但是分割技术仍然具有很大的挑战性。针对病灶区域大小各异、形状不规则的问题，本文将设计的多尺度特征选择模块融合到U-Net网络结构中，增强模型对不同尺度信息的感知能力，有效提高对小病灶和不规则病灶区域的提取能力。

1 材料与方法

1.1 一般材料

本文使用COVID-19 Lung CT Lesion Segmentation Challenge-2020（COVID-19-20）竞赛方提供的公开数据［9］训练和测试模型。这份数据包含199例带有像素级病灶区域标注的COVID-19确诊病例的肺部CT断层图像，在横断面上的空间分辨率为512×512。

1.2 数据处理

实验中采用的图像预处理方式包括重采样、加窗、CLAHE和归一化，以消除数据集中因扫描设备或参数的不同产生的差异，肺部区域信息更加突出，对比度更明显。采用的数据增强方法包括随机旋转、翻折、仿射变换、添加随机的高斯噪声、对比度噪声和亮度噪声。

1.3 网络模型

本文使用的U-Net改进网络主要在其原有结构的基础上，将上下文信息提取模块替换为本文设计的多尺度特征选择模块（Multi-scale Feature Slective Module，MsFS）。上下文信息提取模块起到对编码器输出的高级语义信息进行提取并传递到解码器的作用，该部分的特征信息是整个模型中最高级别的语义信息，对模型分割结果会产生至关重要的作用。对于存在不同尺度目标的分割任务，单一大小的感受野通常难以进行准确的分割，采用多尺度的卷积核可以有效解决这一问题。Zhao等［10］使用不同尺寸的池化核对特征进行提取，增强了模型对上下文信息的多尺度信息提取能力，获得了更好的分割结果；Chen等［11］提出一种空洞空间卷积池化金字塔结构（Atrous Spatial Pyramid Pooling，ASPP），利用不同膨胀率的空洞卷积提取多尺度信息，在保持参数量不增加的情况下提升了多尺度信息提取能力。本文提出的MsFS是在ASPP基础上的改进，在该小节中，首先在1.3.1介绍ASPP结构，在1.3.2介绍提出的MsFS结构，最后在1.3.3介绍经MsFS改进后的多尺度特征选择网络（Multi-scale Feature Slective Network，MsFS-Net）。见图1，图2。

图1 多尺度特征选择网络（MsFS-Net）

图2 多尺度特征选择模块（MsFS）

1.3.1 ASPP

ASPP对输入特征图F input采用5个并联的不同尺度的特征提取操作，分别是1×1卷积，膨胀率为x1，x2，x3的3×3空洞卷积和池化操作，然后对并联输出特征图在通道维度叠加，获得输出特征图F output。其公式可表示为：

其中，concat［·］表示在通道维度的合并操作；Conv1×1、Atrousxi、pooling分别表示1×1卷积、空洞卷积和池化。

1.3.2 MsFS

MsFS是ASPP的改进结构，如图3所示，在对特征图采用不同尺度的卷积、空洞卷积和池化操作特征提取后，引入高效通道注意力机制结构（Efficient Channel Attention，ECA）［12］，使得对不同尺度信息具有选择判断能力，其中的ECA模块对输入特征图首先执行一次全局平均池化（Global Average Pooling，GAP）操作，得到通道维度的特征信息，并通过一次一维卷积和Sigmoid激活函数获得通道维度的注意力信息，并将其与输入特征图相乘。其公式可表示为：

图3 训练曲线

其中，GAP表示全局平均池化；Conv1D表示一维卷积，卷积核的长度为3；σ表示Sigmoid激活函数；⊗表示通道维度的相乘。

1.3.3 MsFS-Net

图1展示了本文提出的多尺度特征选择网络（MsFS-Net）模型结构，该模型的结构由编码器、上下文特征提取模块和解码器3部分组成。其中编码器对输入尺寸为512×512×1的CT图像进行5次下采样，输出一个16×16×1280的特征图，为达到更好的训练效果，本文使用迁移学习方法，迁移了U-Net主干网络在Image Net中的预训练参数，该方法被证明可以加快模型的收敛速度和训练精度［13，14］。然后在上下文信息处理模块中，MsFS模块提取特征图更深层次的多尺度特征信息，输出特征图尺寸不变，还是16×16×1280，见图2。最后在解码器中连续的5次上采样与特征融合，使得图像恢复原始的尺寸，获得一张512×512×1的分割结果图。在输出的最后，使用Sigmoid激活函数，将每个像素点的数值映射到［0，1］区间，代表该像素点为新冠肺炎病灶区域的概率。在最后的图像后处理中，以0.5作为阈值对图像做二值化处理。

1.4 实验环境

实验环境为Python 3.7.9，tensorflow 1.13.2，keras 2.2.4，CPU使用intel i5-12600K，GPU使用Nvidia GeForce RTX 2080Ti。所有实验均在相同软硬件条件下运行采用五折交叉验证训练方法，优化器选择Adam，初始学习率为1e-4，训练轮数设定为200轮，并设计学习率衰减策略和训练早停机制，当验证集损失值连续5轮训练不再下降时，学习率自动衰减一半，连续10轮训练不再下降时，自动停止模型训练。

1.5 评测指标

使用的评测指标包括Dice系数，召回率，精确率和二值交叉熵。Dice相似系数（Dice coefficient）表示分割结果与实际结果的重叠相似度；召回率（Recall）表示真阳性样本在实际阳性样本中的占比，即正例样本的召回情况；精确率（Precision）表示被分为正例的目标中实际为正例的占比，定义TP、TN、FP、FN分别真阳性、真阴性、假阳性和假阴性样本，评测指标的公式表示如下：

1.6 统计学分析

实验结果使用SPSS 18.0进行分析，对各评测指标以（）的形式表示，其中表示平均值，s表示标准差，并采用t检验，以P＜0.05为差异有统计学意义。

2 结果

在结果分析中，使用5折交叉验证方法训练数据，除基线网络U-Net和本文提出的MsFS-Net以外，本文还对比了多尺度特征提取中较为经典的DeepLabV3+［11］和注意力机制相关的分割网络Attention U-Net［15］，对比这4个模型在Dice、Recall、Precision三项评测指标中的表现，绘制训练曲线图并可视化分割结果图。

2.1 评测指标对比结果

使用Dice、Recall、Precision三个评测指标，对比U-Net和MsFS-Net的分割性能，表1显示了5折交叉实验中评测指标对比结果。DeepLabV3+的指标最差，可能是由于其结构的设计主要针对自然图像，不适用于医学图像分割。Attention U-Net的分割效果与U-Net相比差别不大，说明该网络中使用到的注意力门结构可能并不适用于新冠肺炎的分割。MsFS-Net在3项评测指标中的表现较优，相对于U-Net分别提升了5.89%、5.71%、5.30%，且标准差较小，证明模型的稳定性高、鲁棒性更好，差异有统计学意义（P＜0.05）。

表1 评测指标对比

2.2 训练曲线

随机选择出5折交叉中第1折的训练数据，绘制出训练过程中的损失函数和dice的变化曲线。可以看出MsFS-Net的损失函数下降更快，最终达到的数值更低，验证集中dice曲线的变化更平滑，准确率更高。在早停机制的约束下，MsFS-Net的训练轮数最少。见图3。

2.3 分割结果可视化

图4中显示了从测试集中选取的5张CT图像和预测结果对比。其中，图4（a）是输入的原始图像，图4（b）是金标准，图4（c）（d）（e）（f）分别是U-Net，DeeplabV3+，Attention U-Net和本文模型的分割预测结果。其中，3个对比模型容易漏掉小病灶和不规则病灶区域，部分区域边界不清出现了黏连的情况。以第一幅切片图像为例，左侧箭头所指区域由于边界模糊，导致其他模型的分割区域黏连，右上箭头所指的小病灶区域出现了缺失，对比之下，本文模型应对这些特殊情况的处理效果更好。

图4 对比实验中各模型的分割结果

3 讨论

COVID-19是一种由严重急性呼吸综合征冠状病毒（SARS-CoV-2）引起的传染性呼吸道疾病，已造成全球范围内的大流行［16］。CT图像在COVID-19的诊断和评估中具有重要作用，因为它可以显示肺部感染区域的位置和大小［5］。基于U-Net的深度学习方法在医学图像分割领域有着广泛的应用，因为它可以有效地提取图像特征并保留图像细节［17］。本文提出了一种多尺度特征选择网络，用于COVID-19 CT图像分割任务。该模型在U-Net的基础上，增加了多尺度特征选择模块，以提高模型对不同尺度病灶区域的感知能力。

本文使用了公开可用的COVID-19 CT图像数据集进行实验，采用U-Net网络结构作为基础模型，并对其进行了一些改进，以适应COVID-19 CT图像分割任务。具体而言，提出了一种多尺度特征选择模块，以提高模型对不同尺寸病灶区域的分割能力，增强模型鲁棒性。还使用了数据增强、五折交叉验证、Adam优化器等方法来优化训练过程。

通过定量的评价指标来评估所提出的网络模型在COVID-19 CT图像分割任务上的效果，并与U-Net、DeepLabV3+和Attention U-Net做比较。评价指标有Dice、Recall和Precision。实验结果表明，所提出的网络模型在COVID-19 CT图像分割任务上具有较高的精度和稳定性，并且优于其他深度学习方法。

尽管本研究取得了一定成果，但仍存在一些局限性，本文使用的数据量较小且来源单一，可能存在样本偏差或不足的问题，并且没有对不同类型或阶段的COVID-19患者进行区别处理或评估。针以上局限，未来工作可以从以下方面进行改进：（1）收集更多来源多样且质量高的数据集，并对数据做出进一步的数据增强。（2）探索不同类型或阶段患者之间CT图像特征及其与临床指标之间的关系，并设计更适合各类患者情况下图像分割任务的模型。