面向CT图像新冠肺炎识别的密集重参轻量化Transformer模型

2023-11-18叶鑫宇刘凤珍陆惠玲周敬策杜玉虎

电子与信息学报 2023年10期

关键词：层次化轻量化全局

周涛叶鑫宇* 刘凤珍陆惠玲周敬策杜玉虎

①(北方民族大学计算机科学与工程学院银川 750021)

②(宁夏医科大学理学院银川 750004)

③(江南大学人工智能与计算机学院无锡 214122)

④(北方民族大学图像图形智能处理国家民委重点实验室银川 750021)

1 引言

新型冠状病毒具有传播速度快、传染率高的特点[1]，使其成为威胁全世界人类健康的急性呼吸道传染病之一。计算机断层扫描(Com puted Tom ography,CT)作为一种非入侵性影像学技术，广泛应用于新冠肺炎疾病的初步诊断和筛查。新冠肺炎CT影像的分析和诊断过程复杂，需要专业知识和经验的医生，手动分析过程耗时耗力，新冠肺炎CT的计算机辅助诊断模型可以进行快速的诊断和识别。

深度学习模型[2]是辅助医生进行快速准确诊断新冠肺炎的重要手段。Song等人[3]使用特征金字塔网络改进残差神经网络(ResNet)以克服过拟合问题，在新冠肺炎CT数据集上实现93%召回率和86%精度；Ye等人[4]利用半监督模型将类激活映射集成到前向传播中，提高CT图像新冠肺炎识别准确度；Rahhal等人[5]提出多尺度的复合缩放网络(EfficientNet)模型，利用多尺度卷积提取密集特征，提高了分类性能；Kong等人[6]提出融合密集网络(DenseNet)与VGG特征的分类网络，通过特征复用减少网络参数量和缓解梯度消失问题；Garg等人[7]在新冠肺炎CT图像上训练和评估了20个卷积神经网络(Convolutional Neural Network,CNN)的分类性能，其中DenseNet具有高性能和低网络规模的优势。

设计适合移动设备的高效轻量化新冠肺炎计算机辅助诊断模型十分必要，常使用深度可分离卷积、分组、缩减模型层数等方法进行轻量化。M ontalbo[8]减少DenseNet层数来降低参数量，缩短新冠肺炎特征的端到端流动；A sif等人[9]通过集成DenseNet、初始多尺度网络(Incep tion)、移动高效网络(M obileNet)、神经架构搜索网络(NasNet)、极限初始网络(Xcep tion)5种轻量级网络，取得较好新冠肺炎分类效果；Chakraborty等人[10]设计由41个深度可分离卷积层构成的轻量级架构，实现较好的分类性能。基于CNN的轻量化模型主要通过拆分空间维度和通道维度相关性，减少卷积计算的参数量，但限制了CNN模型的性能和准确性。

近年来，结合CNN和T ransform er的混合轻量级新冠肺炎模型取得较好性能。Dehkordi等人[11]结合CNN提取局部特征和T ransform er提取全局特征的优势，在浅层中减少T ransformer数量以减轻高计算复杂性；Park等人[12]对CNN与T ransform er结合的模型进行轻量化，先使用大数据集进行迁移学习，然后在X光片中进行新冠肺炎分类。CNN与T ransformer混合架构仍存在模型参数量大、计算量多、推理缓慢的问题，这也是设计轻量化T ransformer的重要挑战。

综上所述，设计新冠肺炎的轻量化计算机辅助诊断模型主要存在以下问题：(1)深度学习模型占用的资源较大，限制了模型在特殊场景中的应用；(2)新冠肺炎的早期，肺部皮层局部血管变粗，磨玻璃病灶内部有细网格状阴影，难以进行识别，后期病灶呈多叶多灶广泛分布，充分提取新冠肺炎CT图像的病灶局部信息与全局病灶信息仍然是一个难点。为解决以上问题，本文提出一种面向CT图像新冠肺炎识别的密集重参轻量化T ransformer模型：

(1)围绕轻量化问题，设计重参密集块，在训练和推理阶段进行卷积结构重参数，增强性能同时降低复杂度；设计层次化T ransform er，将特征图按通道分组后进行学习，降低复杂度；

(2)围绕提高CT图像新冠肺炎全局和局部信息的特征提取能力，首先使用邻域T ransform er增强全局注意力中的局部特征相关性；其次构造层次化T ransform er，融合不同组之间特征获得多层次信息；然后在层次化T ransform er中进行信息融合，充分提高组内和组间局部与全局特征的交互能力；最后对所有全局特征进行特征聚合，实现深浅层特征的进一步融合。

2 方法

本文所提密集重参轻量化T ransformer(Dense Reparam eter Lightweight T ransform er,DRLT ransformer)模型架构如图1所示，利用3个重参密集块进行特征提取，然后经过4个层次化T ransform er单元进行特征提取，最后经过全连接层和Softmax分类层进行新冠肺炎识别。

图1 DRLT ransformer模型结构图

2.1 重参密集块

CNN通常使用复杂结构提高模型性能，设计高性能且轻量化模型就变得非常重要。结构重参数是指将多分支结构模型的参数重新转换为另一组结构简单的参数，实现轻量化并保持多分支结构的特征表达能力。为此，本文设计了如图1(b)所示的重参密集块，分别由6,12,24个重参单元密集连接组成，重参单元结构如图1(c)所示。重参单元通过多尺度和多分支结构充分提取特征，采用线性缩放替换批量归一化(Batch Normalization,BN)层，保持模型的非线性表达能力，1 ×1重参卷积结构如图2所示。

图2 1×1重参卷积

首先进行串行结构重参，然后进行并行结构重参得到重参1×1卷积，降维减少计算量同时更充分融合各个通道的特征。5个分支结构的3 ×3重参卷积结构如图3所示，对特征信息充分提取，其中3×3最大池化通过消除非极大值，捕获局部信息的细节信息，深度卷积用于减少计算复杂度，点卷积保证跨通道信息的融合，下采样的卷积可以获得与扩张卷积相似的感受野，学习上下文信息的多样性，3 ×3频率滤波器较池化层可以提取更多分量信息，下采样进一步扩大当前卷积层的感受野，从而提高性能。

图3 3×3重参卷积

在训练阶段将不同分支的特征映射操作转换为卷积核上的操作，并减少中间层特征映射操作进一步降低模型复杂度，对重参单元进行密集连接可以用较少参数量增加网络深度和宽度，同时提高对新冠肺炎病灶特征的表示能力。

2.2 层次化轻量块

层次化轻量块由如图1(d)所示的4个层次化T ransform er单元聚合构成，重参密集块输出特征图转换为层次化T ransformer单元的形式。首先信息融合方法将特征按通道进行均匀分组，输入到不同层次的邻域T ransform er，其次在不同组之间进行不同层的信息融合，拼接全部组的特征作层次化T ransformer单元的输出特征，然后连续执行3次相同操作，获得4个不同单元的全局输出特征，最后将全部全局输出特征聚合到最后层，得到层次化轻量块的最终输出。

2.2.1邻域Transformer

CNN通过局部相邻像素点之间的联系提取局部特征，表现出较好的优势，但学习全局特征能力有限；T ransform er[11]模型可以学习全局信息，但缺乏对局部信息的关注能力；移动窗口分层T ransform er(Sw inT ransform er)在局部窗口中计算全局注意力，但缺少窗口间信息交互，全局特征学习中难以关注到局部细节；全局注意力的计算方式会导致模型参数量和计算量急剧上升。为此，本文使用邻域T ransform er计算局部相邻的像素之间的联系，在全局特征学习同时提供丰富局部特征，保留了窗口间局部特征相关性和图像细节信息，结构如图4所示。

图4 邻域T ransform er

首先用类似窗口滑动的方式以像素为X i,j为中心，L2大小的Pi,j为邻域，依次向右滑动，直至取到所有像素的邻域，然后，利用1×1卷积将输入变换为矩阵Q i,j，将邻域Pi,j变换为Ki,j和Vi,j，最后计算Q i,j与Ki,j之间的相关性，得到单个像素邻域注意力(N A(X i,j))，可表示为

其中，Softmax表示归一化指数函数，T表示矩阵转置，B i,j表示相对位置编码，表示K i,j的维度。邻域T ransform er将相关性权重转换为对应邻域计算，考虑像素与其周围像素的局部相关性，引入更多局部信息，弥补了细节信息的损失，提高全局计算过程中对新冠肺炎病灶局部特征相关性的学习能力。

2.2.2层次化Transformer单元

CNN可以按通道对输入特征图进行拆分，对每组进行分层计算学习多层次特征，T ransformer模型计算复杂，不断堆叠计算可进一步扩大感受野，但缺乏多层次的信息。为此，本文基于分层计算设计了层次化Transformer单元，结构如图5所示。一方面将输入特征图按通道数均匀分为4组，分组后分别进行T ransform er计算，降低了参数量和计算量；另一方面融合上一组输出特征，输入到下一层处理，不同层次的特征图拼接在一起，增加感受野同时可以学习多层次特征，进一步增强全局信息与局部信息的融合。

输入特征图按通道划分为4个组，其中第i个通道分组X i，i∈{1,2,3,4}，计算后将输出特征图与下一个组输入特征图进行相加，实现不同层次的全局特征信息融合。第1组输入特征图X1，不做任何处理，节约1/4的参数量和计算量，同时提供原始信息，第2组输入特征图X2直接计算，并将输出的全局特征图与第3组输入特征图X3进行相加的融合，使下一个邻域T ransformer接收来自上一个层次的全局特征，第4组输入特征图X4融合第3组输出后进行计算，最终拼接4组的输出特征，得到具有不同层次感受野的输出特征。

T ransformer中拼接不同层次的全局信息，增加感受野同时学习多层次的全局与局部特征，提高对新冠肺炎的识别能力，按通道分组后进行T ransform er计算，减少了计算复杂度。采用3个邻域T ransformer构成一个层次化T ransformer单元，通过将输入特征图进行通道分组，分别提取不同层次的全局特征，减少T ransform er的计算量和参数量，保持了模型的轻量化。

2.2.3信息融合

层次化T ransformer单元中输出的特征图直接进行拼接，导致不同组的特征无法进行信息交互，为此，使用信息融合对层次化T ransform er单元输入特征按通道进行均匀混洗，对不同组之间的特征图进行信息传递和交互，信息融合具体过程如图6所示。对输入特征图进行通道分组、转换、转置、展平完成信息融合，这样做的优势：(1)没有产生额外的参数量和计算量；(2)对包含全局信息和局部信息的输出特征图进行重组和交互；(3)融合交互CT图像中新冠肺炎病灶的全局与局部信息，提高模型识别能力。

图6 信息融合

2.2.4 Transformer块轻量化

为进一步实现轻量化，本文设计如图1红色箭头所示的聚合操作，将层次化T ransform er单元的输出通道数压缩为1/2，在最后单元聚合全部特征，聚合操作将浅层的全局上下文信息传递到深层，加强浅层全局病灶信息传递的有效性，充分利用深浅层的全局和局部病灶信息轻量化同时保证性能，降低参数量的同时提高模型性能。

3 实验和讨论

3.1 数据集和实验参数

本文使用的数据集包含来自严重急性呼吸综合症新冠肺炎第2代CT扫描(Severe Acute Respiratory Synd rom es Corona Virus disease version 2 Com puted Tomography scan,SARS-CoV-2 CTscan)[13]的2 481个CT图像，和来自新冠肺炎CT(CO rona V Irus D isease Com pu ted Tom ography,COV ID-CT)[14]的746个CT图像。按6:2:2比例分成训练集、验证集和测试集进行实验，使用水平或垂直随机翻转进行增强。本次实验环境为W indows Server 2019系统，256 GB内存，搭载两块3 GHz 36核处理器，并采用两块并行的泰坦第Ⅴ代(TITAN Volta,TITANⅤ)显卡加速图像处理，基于GPU的pytorch框架搭建网络，采用自适应矩估计(Adaptivemoment estimation,Adam)优化器进行优化，采用0.01的初始学习率和每10周期0.9的衰减策略，采用0.2的随机丢弃率防止过拟合，设置权重衰减值为1e–4，训练周期为250，训练批处理大小为48。

3.2 评价指标

根据模型预测结果分类错误和正确的个数，得到真正类(Ture Positive,TP)、假正类(False Positive,FP)、假负类(False Negative,FN)、真负类(T rue Negative,TN)。准确率为全部类预测正确的比例，精确率(Precision)为正类且预测正确占所有正类的比例，召回率(Recall)为预测出的正类占所有正类的比例，F1分数(F1)表示为

受试者操作特征(Receiver Operating Characteristic,ROC)曲线是以敏感度即真正类率(T rue Postive Rate,TPR)为纵轴、假正类率(False Postive Rate,FPR)为横轴进行绘制的，TPR值等于召回率，其中FPR、特异度(T rue Negative Rate,TNR)可分别表示为

将ROC曲线下面积定义为曲线下面积(A rea Under Curve,AUC)值，越靠近左上角AUC值会越大，表示模型的排序能力和分类性能会越好，评价指标均是值越大表示模型越好。

3.3 消融实验与分析

为了评估模块有效性，在DenseNet121基础上依次进行7组实验：添加重参密集块、添加邻域T ransform er、分别添加维度512或256的层次化T ransformer、分别添加信息融合、添加维度256的聚合。实验结果对比如表1所示，不同模型的热力图[4]如图7所示。实验1，模型参数量和计算量急剧下降至1.07 M和70.38 M，5项指标提升近1.39%，重参密集块有效降低模型的参数量，并提高对病灶的特征提取能力，图7第3列可看出其关注病灶范围更广且主要集中在胸腔内部；实验2，5项指标提高近0.92%，邻域T ransformer有效关注局部特征，但模型复杂度上升，图7第4列可看出其更关注于肺部区域。

表1 在新冠肺炎CT数据集上的消融实验结果对比

图7 不同模型在新冠肺炎CT数据集上的热力图

实验3和实验4添加维度512或256的层次化T ransform er，模型参数量分别下降2.95倍和3.55倍，均有效降低计算复杂度且小幅提升性能，提高局部与全局特征的交互能力；实验5和实验6添加无参数量和计算量的信息融合，充分提高Transformer组内和组间特征的交互能力；实验7，5项指标均提高近0.47%并达到98.14%，特征聚合实现深浅层特征的进一步融合，从而进一步提高局部与全局特征的交互能力；实验3—实验7说明了层次化T ransform er轻量化的有效性，图7最后列可看出模型聚焦和定位病灶区域的能力更强，性能得到有效提高。

3.4 对比实验与分析

将本文模型DRLT ransformer与11个模型进行对比，在新冠肺炎CT数据集上的具体分类结果如表2所示。本文模型整体表现均优于其他方法，具有较好的轻量化和分类能力。

表2 不同模型在新冠肺炎CT数据集上的具体结果

从表2可以得出，本文模型较DenseNet模型参数量和计算量大幅降低，5项指标提高近3.57%，获得了较大程度的轻量化且性能有明显提升；较轻量级网络代表M obileNet，参数量降低8倍、计算量降低29倍，5项指标提高近4.50%，进一步轻量化和提高识别精度；较Sw in-T ransformer模型参数量降低225倍、计算量降低191倍、训练时间近1/2，5项指标提高近1.86%，降低复杂度和提高效率；较结合CNN与T ransform er轻量化的深度可分离全局注意力模型EdgeNeX t-B，参数量降低77倍、计算量降低23倍，各项性能提升近2%，参数量更少、性能更高；较交互式融合局部特征与全局特征的模型Con form er-B，参数量和计算量明显降低，5项指标提高近0.96%，以较少资源消耗获得更好的精度。综上，本文模型DRLT ransform er具有较好的轻量化程度，同时具有较高的识别精度和较好的分类能力，对新冠肺炎的识别性能最佳。

图8为12种模型在新冠肺炎CT数据集上的ROC曲线和曲线下面积AUC，本文模型具有明显的优势和鲁棒性，AUC值最大达0.9814，能较好地学习和识别新冠肺炎CT影像的全局病灶信息与局部病灶信息。图9为12种模型在新冠肺炎CT数据集上的PR曲线，是以精确率为纵轴，召回率为横轴的曲线。准确率越高，召回率就越低，向上方凸出、包围面积大的曲线代表模型效果好，可以看出本文模型性能明显最优。

图8 不同模型在新冠肺炎CT数据集上的ROC曲线和AUC值

图9 不同模型在新冠肺炎CT数据集上的PR曲线

3.5 公开数据集对比

为验证本文模型的鲁棒性和泛化能力，在3个公开的新冠肺炎相关CT数据集上进行对比实验，结果如表3、表4和表5所示。第1个来自文献[19]，共5 427张新冠肺炎和2 628张非新冠肺炎图像。第2个来自文献[20]，共4 001张新冠肺炎阳性和9 979张新冠肺炎阴性图像。第3个来自文献[21]，共510张正常和510张新冠肺炎图像，本文模型DRLTransformer均取得较好性能。

表3 公开对比实验结果

表4 公开对比实验结果

表5 公开对比实验结果

4 结论

本文提出一种面向CT图像新冠肺炎识别的密集重参轻量化T ransformer模型，设计重参密集块和轻量级层次化T ransformer实现轻量化；重参中多分支结构提高网络性能，转换特征映射操作为卷积核操作以减少模型计算复杂度；层次化T ransformer增强全局注意力对局部特征相关性的学习能力，分组提取多层次特征信息，信息融合提高特征交互能力，聚合所有全局特征进行深浅层特征深度融合。在新冠肺炎CT数据集中实验结果表明本文模型以较好的轻量化实现了较高的识别精度和准确分类，充分提取病灶的全局和局部信息，热力图可视化技术对各模块验证说明，本文模型在3个公共新冠肺炎相关数据集中取得了较好的鲁棒性和泛化能力。