注意力驱动的细胞团簇细胞核分割算法
2022-05-28马思珂孙续国陈胜勇
马思珂,赵 萌,石 凡,孙续国,陈胜勇
(1.天津理工大学 计算机视觉与系统教育部重点实验室,天津 300384;2.天津医科大学 医学检验学院,天津 300203)
据统计,2018年肺癌是在全球范围内发病率最高,死亡率最高的癌症[1-2]。胸腔积液(也称胸水)是肺癌患者的常见并发症,检测其中的细胞团簇可为肺癌诊断、肿瘤转移及治疗效果评价提供检查途径。目前,肺癌诊断的“金标准”是依靠病理检查出肿瘤细胞,即在患者组织中检查出肿瘤细胞。而细胞核形态的特征是进行病理诊断的主要依据之一。深入了解胸水细胞团簇中细胞核的形态变化对肿瘤的诊断和鉴别具有重要意义。因此,胸水细胞团簇中细胞核的精确分割是肺癌病理诊断一切工作的基础。
许多经典的分割算法都曾被应用于细胞病理学图像来实现细胞核的自动分割,例如有阈值法[3-5]、流域法[6-7]、聚类法[8-9]、水平集法[10]和活动轮廓模型[11-12],或几种不同算法的组合[13-15]。采用这些传统图像处理算法来解决细胞分割问题,通常需要不同的预处理和后处理来进行辅助分割;尽管设计了相应的数学模型来适应图像特征,但由于细胞图像的复杂性和多样性,都无法达到令人满意的效果。近年来,深度卷积神经网络在细胞病理学图像分割上的广泛应用证明了其强大的性能。与传统的手工特征提取方法相比,深度卷积神经网络具有自动提取特征的优点,可以进行端到端的训练。目前,经典的语义分割神经网络包括LinkNet[16]、SegNet[17]、ENet[18]、U-Net[19]、ESPNet[20]、ESPNetv2[21]、IY-Net[22]和EMANet[23]等。它们在经典语义分割数据集上虽取得了较好的成果,但也存在一些不足。例如,LinkNet很可能漏掉对小目标的检测,但病理图像中往往有许多小区域的细胞核;ENet分割出的语义图像边界比较模糊,主要是由于对图像浅层结构信息利用不足;SegNet网络的高层语义信息与浅层图像信息没有很好地结合,不利于细胞的检测和分割,分割后的图像中会产生较多的噪声点和模糊的边缘;U型网络结构简洁,语义分割性能好,易于训练,但在分割网络中下采样之后的主体部分,没有充分利用图像的语义信息,不能精确地捕获到某些非显著性特征,使得分割精度无法达到要求。
胸水细胞团簇因其复杂的生成背景,细胞核分割困难主要表现在两个方面,即细胞核的不均匀性(特征信息分散)和团簇内部重叠细胞中的触核情况(特征不明显)。最近一些研究表明,注意力机制提取非显著性特征应用于图像分类和语义分割等任务已被证明是相当有效的[24-28]。因此我们提出基于注意力机制的改进U-Net模型(U-Net with Convolutional block attention module and Residual path,CRUNet),选取U-Net为基础网络,在最底层的特征图处理部分加入了注意力模块(Convolutional Block Attention Module,CBAM)[29]来将网络模型的训练集中在感兴趣区域内,同时加强对非明显特征的学习,最小化增加计算成本的同时提升模型性能。此外,用剩余路径[30]来代替U-Net中的跳跃链接(skip-connection)融合浅层和深层特征信息,解决U-Net编码器和解码器两端的语义间隙问题。笔者的主要工作如下:
(1) 鉴于胸腔积液中细胞团簇的数据采集和标记非常困难,与细胞病理学专家合作,建立了一个标注好细胞核的胸腔积液细胞团簇数据集。
(2) 鉴于现有算法对胸水细胞团簇细胞核的分割精度无法达到要求,提出了基于注意力机制的U-Net网络模型,用以解决胸腔积液中细胞团簇的细胞核准确分割的问题。
(3) 在公共数据集对所提出的算法进行了验证,证明了笔者提出的注意力驱动的细胞分割算法具有一定的普适性。
1 基于注意力机制改进的U-Net网络
1.1 网络模型
胸水细胞团簇的细胞核分割困难主要表现在两个方面,一是细胞核的不均匀性,当一个视野内存在多个团簇的情况下,图像中细胞核的位置会变得极其分散,这会使得特征信息分散,难以集中于感兴趣区域(Region Of Interest,ROI),加大了细胞核特征提取和解析的难度。二是胸水细胞团簇内部重叠细胞中的触核情况,细胞核在细胞中的位置呈现不确定性分布,重叠的两个细胞中细胞核极大概率会接触,此时会导致细胞核特征不明显,丢失部分细节信息。鉴于以上两点原因,笔者提出以注意力机制为基础对U-Net进行改进。整体网络结构分为特征编码、特征加强、特征解码3个部分,网络结构如图1所示。该网络自动提取细胞核特征,进行端到端的训练。
图1 笔者提出的网络模型结构图
1.1.1 特征编码部分
特征编码部分提取图像空间特征,并对特征进行编码。编码器共有4层,每一层重复两个3×3卷积操作;在每个卷积后面都有一个数据归一化层和校正的线性单元(Rectified Linear Unit,ReLU),归一化层是为了避免ReLU前不会因为数据过大而导致网络性能的不稳定。最后,下采样要经过一个尺寸为2×2最大池化层,步长为2,将特征通道的数量加倍。
1.1.2 特征加强部分
图像经过特征编码之后得到最底层的特征图,在两步卷积操作之间引入CBAM注意力模块。该模块结构如图2所示。
图2 CBAM注意力模块结构图
CBAM模块分为通道注意力模块和空间注意力模块两部分。其中通道注意力模块对细胞核、细胞质和背景区域进行语义区分,空间注意力模块加强对细胞核边界轮廓不显著特征的学习,两者结合生成注意力映射图。输入的特征图以逐元素相乘的方式和注意力映射图来进行计算得出完整的权重图,自适应的细化细胞核特征映射,有利于减少过分割和欠分割的问题,提高对核区域的分割精度。整个CBAM处理流程如下:
Fc=Ac(F)⊗F,
(1)
FR=As(Fc)⊗F,
(2)
其中,F是输入的特征图,Ac和As分别是通道和空间注意力,Fc和FR是生成的相应的注意力映射图。
通道注意力模块通过平均池化操作和最大池化操作同时对特征图进行信息采集,之后通过多层感知器(MultiLayer Perceptron,MLP)进行特征降维,最后将得到的两个特征相加后经过Sigmoid激活函数得到权重系数,与输入特征图相乘得到缩放后的新特征,整体计算流程如下:
Ac(F)=σ(M(v(F))+M(a(F))) ,
(3)
其中,a和v分别是最大池化和平均池化操作,M(·)为多层感知器的降维操作。σ是Sigmoid激活函数。
空间注意力首先沿通道轴分别应用最大池化操作和平均池化操作,并将结果串联起来。然后,利用卷积核尺寸为7×7,激活函数为Sigmoid的卷积层,对拼接后的特征映射进行空间注意映射。空间注意力模块计算过程如下:
As(Fc)=σ(C7×7([v(Fc);a(Fc)])) ,
(4)
其中,C7×7代表卷积核大小为7×7的卷积操作。Fc为通道注意力模块生成的映射图。
1.1.3 特征解码部分
特征解码部分中的每一层都包括一个上采样的特征映射,然后是一个2×2卷积层,将特征通道的数量减半。U-Net中跳跃链接将编码器和解码器特征链接起来,来自编码器的特征是在网络中早期层计算出来的,被认为是浅层特征,而来自解码器的特征是在网络深层中计算出来的,要经过多层计算,被认为是深层特征,因此在跳跃链接两端合并的特征可能存在语义间隙,这样不兼容的特征集会对融合过程造成影响[23]。因此,引入剩余路径来替换普通的跳跃链接,剩余块并不是简单地将特征映射从编码器级连接到解码器级,而是首先将它们通过一系列具有剩余连接的进化层,然后将其与解码器特征连接起来,进行卷积运算,结构如图3所示。
图3中每一个剩余块分别由3×3滤波器和1×1滤波器构成,滤波器用于卷积层,滤波器伴随残余连接,之后进行逐元素相乘进行融合。从浅到深沿着4个剩余路径分别使用4、3、2、1个剩余块。这使得网络不仅能够补充在池操作期间丢失的空间信息,而且可以最大程度地融合这些特征信息。在最后一层,使用1×1卷积将每个分量的特征向量映射到所对应的语义类别。
图3 Res路径结构图
2 实验结果与分析
2.1 数据集介绍与样本扩充
笔者建立了胸水细胞团簇的4′,6-二脒基-2-苯基吲哚(4′,6-DiAmidino-2-PhenyLindole,DAPI)荧光图像数据集,共采集106例图像样本,并由病理学专家标注细胞核的边界。图像分辨率为1 024×2 048。此外,还对数据集进行了概率性扩充,包括最大左旋角度和右旋角度为10°,按照概率0.8执行图像旋转;按照概率0.5执行的图像左右互换;按照概率0.3执行面积为原始图85%的图像放缩;按照概率0.8执行弹性扭曲,最终将原始数据集样本容量扩充至212例。在训练过程中,设计的算法随机选取80%的数据作为训练集,剩余20%作为测试集,以避免网络模型对图片类型的过度依赖性,增加模型的鲁棒性。
2.2 参数设置与实验环境
在训练过程中,采用初始学习率为0.005的RMSprop算法[31]对交叉熵损失函数[32]进行优化,进行35次迭代运算。为了减少深层模型的过拟合,在测试集中监控损失。存储具有最佳精度的模型,用于生成测试集上的分割效果。所有的实验都是在PyTorch框架中实现,并在一台装有Intel Core i9-7900X的处理器和TITAN V GPU的计算机上进行。操作系统是Ubuntu 18.04.4 LTS。
2.3 评价指标
为了准确定义各评价指标,文中用真实值(Ground-truth)表示医生标注的实际值,S为模型分割结果。真阳性(True Positive,TP)表示正确检测到的细胞核区域中的像素数,假阳性(False Positive,FP)表示错误检测为细胞核区域的像素数。假阴性(False Negative,FN)表示被标记为细胞核区域但在分割过程中未被检测到的像素数;真阴性(True Negative,TN)表示它在医生标注中被标记为背景区域,并且在分割结果中也被标记为背景区域的像素数。选取精确率(Precision)、召回率R(Recall)、F1指数(F1-score)、Dice系数(Dice)作为模型分割精度的评价标准。准确度和召回率分别定义如下:
(5)
(6)
高精确率表示错误检测像素较少,而召回率越高表示漏检像素较少。F1指数,被称为平衡F分数,同时考虑精确率和召回率,也被定义为精确率和召回率的谐波平均值。F1指数可以看作是模型精确率和召回率的加权平均值,其最大值为1,最小值为0。F1指数越高,算法的性能越好。F1指数定义如下:
(7)
Dice系数是分割结果与标注的实际值之间重叠的度量,范围是[0,1],即从完全不符合到完全一致。Dice系数即D的计算公式如下:
2.4 对比实验
为了验证该模型的有效性,将笔者提出的网络模型与多种模型算法进行比较。因为该模型引入的是从通道注意力和空间注意力两方面来学习的CBAM卷积注意力模块,所以应与通道注意力模块(Squeeze and Excitation,SE)[33],基于空间注意力模块的GC[34]作对比。此外,为了进一步证明算法的鲁棒性,在公共数据集BBBC020[35]上同样进行了细胞核分割实验。实验结果如表1所示。
表1 文中算法与多种注意力模块在胸水细胞团簇数据集和BBBC020公共数据集上作对比
SE注意力模块关注的是图像通道之间的关系,自动学习到不同通道特征的重要程度。而缺少对图像空间注意力信息的利用。GC注意力模块提出了一种新的全局上下文建模框架,充分利用图像空间中的上下文信息,而缺乏对图像通道之间信息的关注。由表1实验数据可以看出,加任一注意力模块均会对分割效果进行提升,但单独使用两者其中之一时关注信息较为片面。笔者提出的模型CRUNet中,使用CBAM注意力模块,从通道和空间两方面来将网络模型的训练集中在感兴趣区域内,同时加强对非明显特征的学习,最小化增加计算成本的同时提升模型性能。F1指数和Dice系数是分割网络评价指标中最能体现分割效果的指标,笔者提出的CRUNet网络F1指数和Dice系数数值最高,说明此网络整体对胸水细胞团簇细胞核的分割效果最好。
图4展示了CRUNet与多种注意力模块在胸水细胞团簇数据集上的分割结果。图5展示了在公共数据集BBBC020上的实验结果。U-Net网络虽然召回率较高,但准确率较低,会将部分背景区域识别为细胞核,呈现过分割现象。单独使用SE注意力模块或者GC注意力模块会在识别部分微小区域时出现偏差。CRUNet综合分割效果达到最优。
图4 笔者提出的算法与U-Net引入多类注意力模块分割结果对比
为进一步验证本算法性能的优越性,将文中算法CRUNet与注意力引导网络(Attention Guided Network,AGNet)[36]和ResUNet[37]在胸水细胞团簇数据集上进行分割比较,实验结果如表2所示。AGNet会将多数不明显细胞核识别为背景区域,ResUNet难以准确地区分出细胞核边缘,CRUNet综合通道注意力和空间注意力,对胸水细胞团簇细胞核进行了较为准确的分割。
表2 笔者提出的算法与多种网络作对比
2.5 消融研究
针对改进的两个模块,在胸水细胞团簇数据集上进行了消融研究,来讨论CBAM模块、剩余路径和U-Net模型组合的实验结果,实验结果如表3所示。在第1种情况下,只用剩余路径来替换U-Net中的跳跃链接。在第2种情况下,只在传统的U-Net网络模型中加入CBAM注意力模块。
从表中可以看出,与传统的U-Net模型相比,加入任一模块分割准确率均有提升。用Res路径替换U-Net中的跳跃链接,解决的是浅层特征与深层特征融合时的语义偏差,引入这一组件,虽然对于分割精度提升有限,但其Recall指标达到了这几种情况中的最优。CBAM模块从通道注意力和空间注意力两方面加强细胞核非显著性特征,这一点有效弥补了U-Net在区分接触型细胞核和细胞质上的不足,显示在Precision指标上有较大的提升,改善传统U-Net过分割的现象,Dice系数提升5%左右。从表中同样可以观察出当同时加入注意力模块CBAM和剩余路径时,这两个组件组合起来性能是最好的。在处理细胞核之间有接触,边界不明显的情况时,该模型会有更高的分割精度。
表3 各个模块消融研究实验数据
3 总结与讨论
针对胸水细胞团簇细胞核分割所面临的样本数据缺乏、细胞核分布不均匀(特征信息分散)和团簇内部重叠细胞中细胞核粘连严重、干扰项较多(特征不明显)等问题,文中首先建立胸水细胞团簇DAPI荧光数据集,并在实验过程中用旋转、放缩、弹性扭曲等多种数据扩充方法对数据集进行扩充。之后提出基于注意力机制改进的U-Net网络,并用剩余路径解决U-Net编码器和解码器特征融合中语义间隙的问题。该模型在编码器提取特征信息之后,用注意力模块去加强对非显著分散性特征的学习,从空间注意力和通道注意力两方面增强特征图的语义信息。又替换U-Net中的跳跃链接用剩余路径补充在特征融合过程中丢失的空间信息。此外,将该模型与多种注意力机制做对比,并在公共数据集BBBC020上进行实验。实验结果表明,该方法分割精度Dice系数约为82.35%,精确率约为75.05%,召回率约为69.73%,F1指数约为72.29%。
胸水细胞团簇中细胞核的分割是诊断肺腺癌的重要预处理步骤之一。然而,团簇内部单细胞分割仍然是一个难题。因此,今后不仅会继续针对细胞核分割的错检,漏检问题进一步改进算法,而且尝试以该模型计算得到的细胞核位置和形态信息做引导,结合细胞先验知识,用深度学习和传统图形学算法融合的方式,从胸水细胞团簇中分离出重叠细胞,并对正常细胞和肿瘤细胞进行识别,从而判断患者的癌症严重程度,辅助肺癌的病理学诊断。