基于sECANet通道注意力机制的肾透明细胞癌病理图像ISUP分级预测

2022-02-24常世龙王尉丞薛林雁

电子与信息学报 2022年1期

关键词：级别注意力分级

杨昆常世龙王尉丞高聪刘筱刘爽薛林雁*

①(河北大学质量技术监督学院保定 071002)

②(计量仪器与系统国家地方联合工程研究中心保定 071002)

③(河北省新能源汽车动力系统轻量化技术创新中心保定 071002)

1 引言

肾癌是泌尿系统常见的恶性肿瘤之一，2020年全球肾癌新发病例和新增死亡病例在所有的恶性肿瘤中分别占2.2%和1.8%[1]。在我国，肾癌的年发病率也呈明显增长的趋势[2]。肾透明细胞癌(clear cell Renal Cell Carcinoma， ccRCC)是肾癌最常见的病理类型，预后较差[3]。2016年国际泌尿病理协会(International Society for Urology and Pathology，ISUP)发布的ISUP分级系统中，将ccRCC按照细胞核仁突出的程度分为3个核级，若存在极端多形性和/或肿瘤巨细胞、和/或肉瘤样、和/或横纹肌样分化，则作为4级[4]。在临床治疗中，如果术前能够对ccRCC进行精确核分级对于治疗方案的制定和患者预后的评估都具有重要意义。然而，精确的核分级高度依赖临床医生的专业知识和经验水平，同一病例的诊断结果在不同的医师之间可能存在较大差异。随着计算机技术的快速发展，计算机辅助诊断系统因速度快、稳定性强、精确度高等优点在医学影像处理领域取得了快速发展[5]。将计算机辅助诊断系统应用于ccRCC的核分级，可以在节省诊断时间的同时，减少医生因技术或临床经验差异而导致的诊断误判。

增强CT是肾肿瘤早期发现和诊断常用的影像学方法之一，由于不同ISUP等级的ccRCC可能表现出不同的影像学特征，一些学者利用CT图像构建了ccRCC的ISUP等级预测模型。韩冬等人[6]回顾性地收集了131例患者的CT图像，对患者的性别、是否出现血尿、是否腹痛等一般特征和增强CT图像特征进行降维后用于神经网络模型的训练和验证，在验证集中模型鉴别高、低级别ccRCC的AUC为0.7924，敏感度为75.00%，特异度为86.96%。陈心怡等人[7]构建了一种基于增强CT动脉期图像的人工智能模型，通过对3D肿瘤的感兴趣区域提取特征建立了逻辑回归模型，在验证集上模型对高、低级别ccRCC的敏感性和特异性分别为81.25%和84.93%，AUC为0.8987。康钦钦等人[8]提出并验证了一个基于CT影像特征及解剖学RENAL评分的模型，用于无创、个体化预测ccRCC的病理分级，该模型在训练集和测试集上的AUC分别为0.972和0.995，均表现出良好的鉴别能力。Lin等人[9]基于ResNet卷积神经网络构建了一个CT图像的ccRCC核分级模型，并使用重复测量法比较了图像裁剪、设置注意力级别、选择模型复杂度和应用迁移学习等不同方法对深度模型性能的影响，经过最终测试，该模型在内部验证集上的准确率为73.7±11.6%， AUC为0.82±0.11，在外部验证集上的准确率为77.9±6.2%， AUC为0.81±0.04。Hadjiyski[10]则利用具有迁移学习的Inception V3深度学习模型对从 3D CT 扫描中裁剪得到肾癌图像进行训练后，经过最终测试，模型在训练集、验证集和测试集上的AUC 分别为0.97， 0.91和0.90。

除CT图像外，基于核磁共振图像的计算机辅助诊断模型也被应用于ccRCC的分级预测。石博文等人[11]回顾性地分析了63例术前行腹部3.0T MR扫描的ccRCC患者的图像数据，首先采用A.K.软件提取医生在T2序列图像上勾画的感兴区域的影像组学特征，再从中筛选出对术后病理分级最具有诊断价值的特征参数，然后构建随机森林机器学习模型对特征参数进行分类训练和测试，实验结果表明模型的准确度、敏感度、特异度及AUC分别为85%， 100%， 72%， 0.87。张钰等人[12]则回顾性分析了78例经手术病理确诊为ccRCC患者的术前肾脏MRI图像，在选取横断面图像病灶的最大层面后由医生分别在T2WI及皮髓质期图像上勾画感兴趣区，然后提取图像的纹理特征并筛选出具有统计学意义的特征，据此构建了多因素二元logistic回归模型，经过最终测试，模型在训练集和验证集中AUC分别为0.901和0.820。

尽管上述研究有助于对ccRCC进行分级诊断，但是存在以下问题：(1)病理诊断结果是ccRCC核分级的金标准，然而目前鲜有基于病理图像的ISUP核分级研究；(2)以往研究只粗略将ccRCC划分为低级别和高级别两种等级，并没有以ISUP为标准进行更为精确的核分级。针对以上问题，本文构建了对ccRCC病理图像进行ISUP分级预测的深度学习网络模型。主要贡献包括：(1)基于病理图像实现了ccRCC的ISUP 1-3级的精确核分级；(2)提出了一种新的通道注意力模块sECANet用于提升卷积神经网络性能；(3)通过先对病理图像的每个切块(Patch)进行分类，再使用多数投票法得到图像(Image)级别的病理学分级预测结果。

2 基于sECANet通道注意力机制的卷积神经网络

2.1 卷积神经网络和通道注意力机制

卷积神经网络是人工智能领域重要的研究成果之一，在图像分类、目标检测、实例分割等领域取得了突破性的成果[13]。卷积神经网络通常由一系列的卷积层、池化层和非线性激活层组合而成，与之前的全连接神经网络相比，卷积神经网络可以通过权重共享的方式在局部感受野上进行信息聚合，进而能够从全局感受野上捕获图像的特征，有效地减少了参数量。目前，诸如AlexNet[14]， VGGNet[15]和ResNet[16]等一系列典型的卷积神经网络已经应用于人脸识别、自动驾驶和医学影像识别等领域。这些卷积神经网络都通过不断堆叠卷积层的个数来提高网络的性能。

近几年的研究发现，在卷积神经网络中引入通道注意力机制对于提高其识别性能有着巨大的潜力[17]。最早的通道注意力模型SeNet[18]通过对特征图通道之间的相互依赖关系进行建模，自动获取每个特征通道的重要程度，然后以此为通道权重提升有用的特征并抑制对当前任务用处不大的特征，从而在一定程度上提高了网络的性能。随后，Wang等人[19]发现SeNet对特征图的降维会降低网络性能，并且获取所有通道之间的依赖关系是低效且不必要的。为此，他们提出了一种局部跨信道交互策略ECANet，可以在不降低维数的通道级全局平均池化之后，通过执行卷积核大小为k的1维卷积来获得特征图每个通道及其k个临近通道之间的局部依赖关系，在避免降维造成的信息损失的同时也有效地获取了跨通道之间的相互依赖关系。

尽管ECANet和SeNet相比有着更好的性能提升，但是ECANet仅仅考虑了特征图当前通道与其若干临近通道之间的局部依赖关系，这样不可避免地丢失当前通道与其他远距离通道之间的全局依赖关系。因此，本文提出了一种新的通道注意力模块sECANet，通过计算特征图中当前通道和临近通道以及当前通道和远距离通道之间的信息交互获取更多有用的特征。

2.2 sECANet通道注意力模块

sECANet通道注意力模块结构如图1所示。改进前的ECANet对特征图进行通道级全局平均池化操作后，通过计算得到了每个通道及其k个临近通道之间的局部依赖关系信息(图1中示例k=3)。为了得到更多的全局依赖关系，sECANet在此基础上增加了一个新的通道级全局平均池化并打乱的分支(图1中虚线框所示)，该分支在进行通道级的全局平均池化后对特征图的通道顺序进行随机重排，因此打乱前的远距离通道可能成为其邻近通道。在获取新的特征图当前通道及其新的k个临近通道之间的局部依赖关系后，对两个分支进行加权就可以得到更多的通道间的交互信息。

图1 sECANet通道注意力模块

sECANet通道注意力模块具体的计算流程如下：假设输入特征经过卷积操作后的特征向量为x ∈RW×H×C，其中W，H和C分别表示特征向量的宽度、高度和通道大小。通道维度的全局平均池化可以表示为

则在sECANet中两个分支输入的特征向量可以分别表示为

2.3 ResNet50+sECANet卷积神经网络结构

本文选择ResNet50网络作为基础网络架构，并通过在ResNet50中添加SeNet， ECANet和sECANet等不同的注意力模块后比较网络的性能表现。

ResNet50的网络结构如图2所示，输入图像首先经过一个7×7的卷积层和一个3×3的池化层提取图像中的浅层特征，然后经过Stage2， Stage3，Stage4和Stage5卷积层提取图像中的深层次特征，随后通过一个全局平均池化层对提取到的特征进行降维操作并将其作为全连接层神经网络的输入，最后提取到的特征通过一个softmax层输出网络的预测结果。在ResNet50中，Stage2， Stage3， Stage4和Stage5卷积层分别由3， 4， 6和3个瓶颈层组成，每一个瓶颈层又由1个1×1卷积层、1个3×3卷积层、1个1×1卷积层和1个输入和输出间残差连接组成。本文将sECANet插入到了Stage2～Stage5的每个瓶颈层中。图2以Stage3为例，这个卷积层中包含4个瓶颈层，在每个瓶颈层的第2个1×1卷积层后都插入1个sECANet模块。

图2 ResNet50网络的整体结构图以及sECANet模块插入位置示意图

3 实验与结果分析

3.1 数据集

本文从中科光华(西安)智能生物科技有限公司的NO.U090KI01 肾癌组织芯片中收集到了90例患者的病变区域病理切片图像，每例患者有明确的ISUP分级、Stage分期、TNM分期等病理诊断结果。组织芯片所有临床信息的统计结果如表1所示。

表1 No.U090KI01组织芯片的临床信息

3.2 数据预处理

由于每个患者的病理图像在40倍放大倍率下的尺寸为5120像素×5120像素，将全片送入到网络中进行训练是不可行的，故对每位患者的原始病理图像进行切分。切分过程如图3中第1个虚线框所示(Image切分为Patch)，先将图像裁成尺寸为320像素×320像素的切块。为了减少信息丢失，取步长为260。再对裁剪得到的切块进行筛选，剔除那些空白区域、组织纤维、出血、血管、囊肿或淋巴病变超过50%区域的Patch，最终得到19978张切块。

数据增强是提高网络性能和降低分类网络模型过拟合风险的重要方法之一[22]。因此，对筛选后的切块进行增强，具体的操作如图3中第2个虚线框所示(数据增强模块)。首先，将尺寸为320像素×320像素的切块调整为256像素×256像素后，再对图像进行随机水平翻转、随机垂直翻转和随机旋转等一系列的增强操作，并进行归一化处理，最后将得到的张量送入到卷积神经网络模型中。

图3 40倍放大倍率下病理图像切分以及图像增强过程

3.3 实验环境与训练设置

本文实验环境配置如下：CPU为Intel(R)Xeon(R) Gold 6240 CPU @ 2.60 GHz；系统版本为：Ubuntu 18.04.5 LTS PC；GPU为NVIDIA RTX 2080Ti GPU*2，CUDA11.1；Python版本为3.7.11；深度学习框架版本为Pytorch 1.8.1。

考虑到样本的不均衡性，本文引入加权交叉熵损失函数，来抑制样本不平衡对模型性能产生的影响。为了加快模型的训练速度，提高模型的稳定性和泛化能力，本文使用ImageNet数据集上学习到的 ResNet50的权重作为初始网络参数，注意力模块的参数则进行了随机初始化。然后通过随机梯度下降 (Stochastic Gradient Descent， SGD) 算法优化网络参数，权重衰减为 10—5，学习动量为 0.9，batch size大小为 80。每个模型训练 100 个epoch，其中初始学习率设置为 0.01，并每隔30个epoch学习率乘以0.1。

3.4 系统评价方法

本文采用五折交叉验证来衡量模型的性能。值得注意的是在划分训练集和验证集时以患者为个体单位对不同的类别进行分层采样，从而提高模型对患者进行预测的准确度。由于实验中先将病理图像划分成切块进行训练，因此首先对网络进行Patch级别的分类性能评价。每个病例的分类结果采用多数投票法得到，即统计该病例切块数最多的切块分级作为该病例的最终预测结果，因此进一步进行Image级别的分类性能评价。

评价指标采用分类准确率(Acc、精确率(Pre)、召回率(Rec)、F1分数(F1)、混淆矩阵和梯度加权类激活映射方法(Gradient-weighted Class Activation Mapping， Grad-CAM)。分类准确率、精确率、召回率和F1可以通过式(12)—式(15)得到。

其中，TP是真正例的个数，FN是假反例的个数，FP是假正例的个数，TN是真反例的个数。

混淆矩阵表示分类器处理多分类问题时造成的混淆情况，横坐标表示分类器预测的类别，纵坐标表示图像的真实类别，对角线上的值表示每类图像被正确分类的个数，对角线颜色越深则表明分类器的性能越好，本文在绘制时对预测结果进行了归一化处理。

Grad-CAM可以通过生成粗略的定位图，突出图像中用于分类器预测的重要区域，其中红色表示分类器预测时高关注度的区域，而深蓝色区域表示分类器预测时低关注度的区域[23]。

3.5 验证sECANet有效性的消融实验

为了验证sECANet通道注意力机制的有效性，本文在相同的数据集上对比了ResNet50基础网络和分别融合3种不同的通道注意力模块SeNet，ECANet和sECANet后的性能。融合不同注意力模块的ResNet50模型在Patch级别的评价指标如表2所示(其中加粗字体表示相同评价指标下的最优结果)。通过比较可以发现通道注意力模块SeNet，ECANet和sECANet均可有效地提升网络的性能，且本文提出的sECANet相较于其他两者是最优的。与基础的ResNet50相比，融合了sECANet后网络的Acc、Pre、Rec和F1分别提高了1.91% (78.48%vs. 76.57%)， 1.69% (79.95% vs. 78.26%)， 2.25%(78.43% vs. 76.18%)和1.84% (78.51% vs. 76.67%)。同时，在五折交叉验证中，ResNet50 + sECANet网络模型的各个分类指标的标准差(Standard Deviation， SD)最小，这表明相较于其他网络，本文提出的算法的分类性能最稳定。

表2 融合不同注意力模块的ResNet50模型在Patch级别的分类性能(%)对比

进一步地，本文计算了融合不同注意力模块的ResNet50模型在Patch级的分类混淆矩阵，结果如图4所示，主对角线的数值即为各类的召回率。通过比较4个混淆矩阵可以看出，本文提出的sECANet整体性能最好、分类准确率最高(图4(d))。

值得注意的是，虽然所有的算法都能够较好地区分ISUP 1级和正常级别的ccRCC病理图像，但在鉴别ISUP 2级、ISUP 3级时的表现性能相对较差。其中分类错误的ISUP 2级主要被鉴别为ISUP 1级或ISUP 3级，且错分为前者的可能性更大；分类错误的ISUP 3级主要被鉴别为ISUP 2级。导致该现象的原因一方面可能是数据集中4种类别的样本数量较少(ISUP 1级有38例，ISUP 2级有25例，ISUP 3级有17例，正常有10例)，还需要进一步地收集典型的ISUP 2级和ISUP 3级的数据；另一方面从组织病理学特征来看，相邻ISUP级别的病理图像中细胞核仁形态特征相近。图5的蓝色圆点区域为HE染色的细胞核，正常的细胞核形态最小(图5(d))，ISUP 1级的细胞核增大(图5(a))，ISUP 3级细胞核更大(图5(c))，且形态有一定的变化，而ISUP 2级(图5(b))的细胞核大小介于ISUP 1级和3级之间。在数据量有限的情况下，模型很难提取足够多的有效区分相邻级别的特征信息，因此导致ISUP 2级可能被错分为ISUP 1级或3级，ISUP 3级和少量ISUP 1级可能被错分成ISUP 2级。此外，对比图4(a)和图4(d)，融合了新的注意力模块的ResNet50提升了对ISUP 1级(0.90 vs. 0.87)和正常级别(0.94 vs. 0.89)的分类能力，但是对ISUP 2级和3级的提升效果不显著。

图4 融合不同注意力模块的ResNet50模型在Patch级别分类结果混淆矩阵

图5 数据集中4种不同病理级别的典型示意图

通过五折交叉验证，得到90例患者每个Patch的分类结果后，再通过多数投票法得到每个患者Image的分类结果，统计结果如表3所示。从实验结果可知，在ResNet50网络中引入ECANet或sECANet通道注意力模块均可显著提高模型的性能，且sECANet模块对网络分类性能的提升更为显著，sECANet在进行通道选择时能够关注到更多与任务相关的通道信息，相对SeNet和ECANet能够提取更多有用的特征，因此能够更好地在Image级别实现ccRCC病理图像的精确分级。

表3 融合不同注意力模块的ResNet50模型在Image级别的分类性能(%)对比

为了进一步比较融合不同注意力模块的Res-Net50模型的分类效果，本文进一步地计算了4种算法在Image级别上的分类结果混淆矩阵，结果如图6所示。

图6 融合不同注意力模块的ResNet50模型在Image级别分类结果混淆矩阵

通过比较4个混淆矩阵可以看出，融合不同注意力模块的ResNet50模型都能够在Image级别对正常的病理图像实现精确的分级，对ISUP 1级的分类精度也较高，但对ISUP 2级、ISUP 3级的预测效果较差。其中， ISUP 2级主要被错误地鉴别为ISUP 1级或ISUP 3级，部分ISUP 3级和极少量ISUP 1级主要被鉴别为ISUP 2级。此外，与基础网络ResNet50相比，本文提出的ResNet50 +sECANet在Image级别上将ISUP 1级的召回率由0.97提升为1.00，同时有效地提升了ISUP 2级(0.80 vs.0.76)和ISUP 3级(0.71 vs. 0.65)的召回率。

为解决卷积神经网络模型中感兴趣的区域不可见问题，本文分别绘制了融合不同注意力模块的ResNet50模型的Grad-CAM图像，对不同算法在对输入图像进行分类时重点关注的区域在视觉上进行可视化处理，以便于了解模型做出决策时的核心图像区域。由于分类器根据细胞核仁的形态对病理图像进行分级预测，因此网络的感兴趣区域如果更集中在细胞核区域，就能够提取更多有用的分类特征，排除无关区域的干扰，从而使网络的性能更优。对于图7的3张输入图像，sECANet在分类决策时相较于基础网络ResNet50，以及融合其他通道注意力机制的ResNet50+SeNet， ResNet50+ECANet要关注到病理图像中更多的细胞核，因此可以提取更多有用的特征，从而得到最佳的分类性能。

图7 融合不同注意力模块的ResNet50模型相同输入图像下的Grad-CAM图

3.6 和其他网络进行比较

为了进一步验证ResNet50+sECANet模型的分类效果，将本文方法与近几年代表性的ShuffleNet V2， DenseNet121和VGG16等分类方法进行了对比，所有方法均使用本文构建的数据集，实验评价指标采用Acc，Pre，Rec与F1进行定量分析，不同算法在Patch级别的分类性能见表4。本文提出的ResNet50+sECANet模型的准确率为78.48±3.17%，精确率为79.95±4.37%，召回率为78.43±2.44，F1分数为78.51±3.04%，与其他几种网络算法相比均最高，同时各个分类性能指标的标准差最小，表明我们提出的ISUP分级模型整体的预测效果优于其他模型，且具有更好的泛化能力和更高的可靠性。

表4 不同网络在Patch级别的分类性能(%)对比

表5是本文提出的ResNet50+sECANet 与ShuffleNet V2， DenseNet121， VGG16等不同算法在Image级别上分类性能的对比结果。ResNet50+sECANet预测所有病例的ISUP分级的准确率达到88.89%，精确率达到89.88%，召回率达到87.65%，F1分数达到88.51%，在所有的模型中均表现出最优的性能。

表5 不同网络在Image级别的分类性能(%)对比

4 结束语

本文针对ECANet通道注意力模块在捕获特征通道间相互依赖关系时只考虑临近通道而忽略远距离通道的不足，提出了一种两者兼顾的通道注意力模块sECANet，并将其应用于ccRCC病理图片的Patch级别的ISUP分级预测。在得到每个患者Patch级别的预测结果后，再通过多数投票法得到相对应患者Image级别的分类结果。最终的实验结果表明，新的注意力模块能够有效地提升网络的分类能力和泛化能力，特别是有效提升了Image级别的预测结果。但是，本文提出的ccRCC ISUP分级模型识别ISUP 2级和ISUP 3级的性能还需改进，因此收集更多的典型数据以及如何利用卷积神经网络提取更有效区分ISUP等级的图像特征是下一步的研究方向之一。此外，本研究采用的数据集是从每个患者的全视野数字切片(Whole Slide Image，WSI)上对病变区域采样后得到的，因此进一步开发针对肾组织WSI图像的病理分级CAD也是未来的主要工作。