APP下载

基于多期相注意力融合网络的肝脏病灶CT 影像分类研究

2023-02-20田炜雷志超王楚正

计算机工程 2023年2期
关键词:分支准确率肝脏

田炜,雷志超,王楚正

(中南林业科技大学 计算机与信息工程学院,长沙 410000)

0 概述

当前,癌症已经成为致死率最高的疾病,其中肝癌的致死率位于前列[1]。肝癌主要分为肝细胞癌(Hepatocellular Carcinoma,HCC)、局灶性结节性增生(Focal Nodular Hyperplasia,FNH)、血管瘤(Hemangioma,HEM)、囊肿(Cyst)等类型。癌症的早期诊断和治疗是降低癌症死亡率的主要措施,传统的肝癌诊断方法基于临床医生对患者计算机断层扫描(Computed Tomography,CT)影像的观察和判断[2],该方法不但要求医生有丰富的经验和专业知识,而且需要很长的诊断时间。肝脏病灶是指肝脏疾病(包括肝癌)集中的部位或是综合病症、感染的主要部位。近年来,计算机辅助诊断(Computer-Aided Diagnosis,CAD)系统在肝脏局灶性病变(Focal Liver Lesions,FLLs)分类的早期准确诊断中发挥着重要作用[3],多期相CT 影像已应用于CAD。多期相CT 影像根据造影剂注射时间不同分为3 个期相,包括注射造影剂之前进行检查以获得平扫期(Non-contrast Enhanced,NC),注射后阶段包括动脉(Arterial,ART)期(造影剂注射后30~40 s),门静脉(Portal Venous,PV)期(造影剂注射后70~80 s)[4-5]。

对肝脏病灶分类的研究,早期仅利用单期相CT 影像数据[6-8],忽略了多期相扫描传达的时序信息,分类准确率较低。因此,亟需将多期相CT 影像应用到FLLs的检测和分类研究中,这对于提高检测或诊断的准确率至关重要[9]。传统方法主要是以提取传统特征为主的特征提取器和线性或非线性分类器。这些特征包括形态学特征,位置特征,灰度调整、生长速度和纹理特征的低级特征,或者基于视觉词袋(Bag of Visual Word,BoVW)模型提取的中级特征[7-8,10]。文献[11]提出基于Bi-gram BoSTW 模型的浅层多特征融合的方法,结合N-gram 和BoVW 模型进行肝脏病灶分类研究。由于利用手工提取的浅层特征难以建立和多期相数据集间的直接联系,因此传统方法难以达到较高的分类性能,分类器鲁棒性差,分类过程复杂且耗费时间。

自HE等[12]提出残差神经网络(Residual Neural Network,ResNet)以来,许多学者将深度学习相关理论逐渐应用到肝脏病灶的检测和分类中[13-15]。文献[16]提出一种基于多尺度patch 的分类框架检测肝脏局灶性病变。YASAKA等[17]提出一种卷积神经网络(Convolutional Neural Network,CNN)结构,对CT 影像中的肝肿瘤进行分类,其模型具有3个通道,对应NC、ART和PV共3个期相。LIANG等[18]提出融合全局和局部信息的CNN 网络结构用于FLLs 分类。这些方法应用多期相CT 影像提取比单期相影像更丰富的特征信息,并且利用深度学习方法的优势,能够快速得到更高准确率的分类结果。然而,这些方法均使用早期融合的方法,难以解决多期相肝脏病灶CT 影像结构变化较大、病灶尺寸差异大等情况,不能提取更丰富的特征信息。同时,肝脏病灶分类还存在精准标注样本少、标注难、分类准确率不高、现有特征表达方式依然难以直接指导临床应用等问题。

本文提出一种多期相注意力融合网络(Multi-phase Attention Fusion Network,MAFNet)进行多期相CT 影像肝脏病灶分类。使用单期相分支和采用中期融合方式的融合分支构建网络模型,利用多期相注意力模块(Multi-phase Attention Module,MAM)表达不同期相影像的时序增强模式,从而提高分类结果准确率。

1 多期相影像与特征融合

1.1 多期相影像

为充分表示多期相肝脏CT 影像时序增强模式,本文使用3 个期相的肝脏肿瘤CT 影像作为数据源进行研究,这些数据源分为Cyst、FNH、HCC、HEM共4 个类型,如图1 所示。

图1 4 个典型肝脏病变在3 个期相时的影像Fig.1 Images of four typical liver lesions in three phases

1.2 特征融合

为提高肝脏病灶CT分类的准确率,特征融合方法在表达单期相影像特征时,不能忽略多期相影像间增强模式。通常,融合大致分为早期融合(Early fusion)[19-21]、后期融合(Late fusion)和中期融合(Intermediate fusion)[22]3 种类型。早期融合首先将多期相图像通过多通道的方式融合到深度网络中,学习融合特征表示,然后对网络进行训练,也称为输入级融合。这种融合可以最大限度地保留原始图像信息,学习图像特征。后期融合也称为决策级融合,指的是对每个网络的输出进行融合,得到最终的结果。后期融合旨在从不同的期相中独立地获取更丰富的信息。应用早期融合和后期融合策略进行多期相肝脏病灶CT 影像分类的流程如图2 所示。

图2 两种融合表达策略流程Fig.2 Procedures of two fusion expression strategies

多期相肝脏病灶CT 影像数据特异性以及早期融合和后期融合两种融合策略在表达特征方面都有不同程度的不足。如图2 所示,早期融合仅是输入级融合策略,难以解决不同采样率或不同框架下数据间的异步性问题,导致模型性能下降。在后期融合中,由于每种期相的输出相互独立,这种决策模型忽略了同一患者不同期相之间的增强模式信息。由于不同患者病灶的外观形态和结构在一定程度上与注射造影剂时间有关,有的病灶只能在某个特定期相影像中检测出来,导致单一的肝脏肿瘤影像忽略多期相影像中的信息。针对早期融合和后期融合的不足,难以将图像的低层特征和高层特征融合,分类性能差,本文采用中期融合策略,通过将每个期相的图像作为单个输入来训练单个深度网络,每个特征在网络层进行融合,并将结果反馈给决策层,得到最终结果。

2 多期相注意力融合网络

为更好地表达多期相CT 影像中的时间序列增强模式,本文提出了多期相注意力融合网络(Multiphase Attention Fusion Network,MAFNet)。

2.1 整体网络结构

如图3 所示,本文提出的网络为多分支架构,由3 个单期相分支(NC、ART、PV)和融合分支构成。在单期相分支中,本文部署了3 个完整的ResNet50,用来分别提取NC、ART 和PV 3 个期相的特征,这3 个分支可以保持NC、ART 和PV 3 个单期相的图像特征。融合分支用来融合从单期相分支的特征映射中提取出来的图像特征。

图3 多期相注意力融合网络结构Fig.3 Structure of multi-phase attention fusion network

针对多期相肝脏肿瘤图像特性,在融合分支中,本文采用中期融合的方式,3个单期相分支(NC、ART、PV)在网络的每个模块阶段提供一组特征映射,如Conv、Layer1等。然后特征映射由多期相注意力模块重新组织。特征映射经过Conv后,进一步逐元素地相加作为融合分支的输入,其他元素则添加到融合分支的输出中。特征映射经过Conv后,进一步逐元素地相加作为融合分支的输入,其他元素则添加到融合分支的输出中。通过这种方式,本文的网络架构可以提取、重组和融合低层和高层特征,既能提取单期相图像内部之间的特征信息,也能关注多期相图像之间的时序增强模式。

2.2 多期相注意力模块

如图3所示,本文设计了一组注意力模块[23],即MAM模块。本文的MAM 基于通道注意力[24],使网络聚焦于信息更丰富的区域。如图4 所示,利用MAM 对通道之间的相互依赖关系进行建模,选择性地增强包含有用信息的特征并抑制无用特征,并通过网络的全局损失函数,自适应地重新调整通道之间的特征相应强度,使有效的特征图具有较大的权重,而无效或效果较小的特征图具有较小的权重。

图4所示为多期相注意力模块。在图4中,首先,将各通道的全局空间特征作为该通道的表示,形成一个通道描述符,对于特征映射U=[u1,u2,…uc]∈RC×H×W,其中uk∈RH×W为第k个通道上的特征映射。使用全局平均池化,得到输出Z∈RC×1×1,其中C代表通道数,H和W分别表示特征图的高度和宽度。Z(Z∈RC)的第k个元素可由式(1)求得:

图4 多期相注意力模块Fig.4 Multi-phase attention module

然后,由一个1×1 卷积层重新组织Z,使卷积层的通道数与Z相同。这是由于1×1 卷积层能够挖掘通道之间的相关性,有助于通道之间相应的权重分布。本文使用Sigmoid激活函数将权值向量M<∈RC×1×1的值限制在0~1 之间,表达式如式(2)所示:

其中:δ代表Sigmoid 激活函数;φ代表1×1 卷积。

将特征映射U和权值向量M进行外积,原始特征映射U被转换为新的特征映射X~,其中包含更多有效信息,表达式如式(3)所示:

其中:⊗代表外积。

2.3 特征融合结构

本文提出的多期相肝脏病灶特征融合体系结构如图3 所示。图3 中部署了3 个完整的ResNet50 用来分别提取NC、ART 和PV 特征,这3 个分支用来保持NC、ART 和PV 3 个单期相的图像特征。然后,利用融合分支从单期相分支的特征映射中提取图像特征进行融合。

图3 中网络模型的具体设计如表1 所示。本文设计的网络结构为多分支结构,其基础网络均采用ResNet50。在单期相分支中Conv 阶段包含1 个深度为64,步长为2 的7×7 卷积核的卷积层、1 个批量标准化(Batch Normalization,BN)、1 个修正线性单元(Rectified Linear Unit,ReLU)和最大池化层。Layer1 一共有3组,每一组包含3 个卷积层。类似地,Layer2、Layer3 和Layer4 表示不同的卷积层集合。融合分支在ResNet50 基础上,删除单期相分支中的Conv 阶段,保留了4 个layer 阶段,然后使用了1 个全局平均池化(Global Average Pooling,GAP)。GAP 能够降低特征映射空间位置信息的损失,并且减少了参数的计算量,防止发生过拟合。最后使用1 个完全连接层(Fully Connected Layers,FC)对提取的高级特征进行分类,最终输出值(0,1,2,3)分别对应4 种肝脏病灶的种类。

表1 单期相分支与融合分支的网络结构 Table 1 Network structure of single phase branch and conversed branch

2.4 多期相损失函数

本文设计了一种多期相损失函数,结合如上所述的多期相特征融合结构。多期相损失函数使用的是交叉熵[25]。

3 实验结果与分析

3.1 数据集与评价指标

本文使用某医院内部的MPCT-FLLs 数据库[26-27],将实验数据分为训练集、验证集和测试集。肝脏肿瘤包括3 个期相(即NC、ART 和PV)和4 种类型(即Cyst、FNH、HCC 和HEM),如图1 所示。为了消除随机性的影响,本文按照文献[18]中的方式进行两次数据划分操作,形成两组数据集,如表2所示。每个多期相CT 影像被调整为112×112 像素。为避免过拟合问题,本文采用数据增强的方法,包括高斯噪声[28]、翻转和随机旋转。

表2 数据集样本数 Table 2 Sample number of datasets

本文使用测试集的平均准确率和标准差来评估本文模型的性能。准确率A定义如式(5)所示:

其中:TTP为正确的分类样本个数;T为相应数据集的所有样本个数。

3.2 实验环境与参数设置

实验使用Intel i7-10700 CPU、16 GB DDR4 RAM和Nvidia GeForce GTX 2080 Super(8 GB)GPU 配置 的服务器,使用Pytorch 实现网络架构。实验使用随机梯度下降优化器(Stochastic Gradient Descent Optimizer,SGD)[29]优化参数,其中初始学习率设置为0.000 1,每100 次后衰减0.8,动量设置为0.9,设置500 个epoch,batch size 为16。

3.3 实验分析

3.3.1 基础网络的确定

为确定更适合本文数据集的基础网络,本文通过实验对比了当前主要的AlexNet[30]、VGG[31]、Inception[32]、ResNet[11]等网络的分类结果。由于VGG 在本实验中出现过拟合现象,不能收敛,故分别利用AlexNet、ResNet和Inception 基础网络,采用早期融合、后期融合和中期融合这3 种融合策略,探讨更适合多期相病灶图像数据集的基础网络。

图5所示为AlexNet、ResNet 和Inception网络的早期、后期和中期融合的分类结果。从图5 可以看出,AlexNet 和Inception 网络中期融合的平均准确率分别为80.34%和87.44%,高于早期融合和后期融合。由图5 可知,使用任意融合策略的ResNet 网络的平均准确率均高于AlexNet 网络,使用后期融合和中期融合策略的ResNet 网络的平均准确率也高于使用后期融合和中期融合策略的Inception 网络。相较于其他网络结构,使用中期融合策略的ResNet 网络的平均准确率达到最高,为88.75%。因此,本文选用ResNet 作为基础网络。

图5 不同基础网络的实验结果对比Fig.5 Comparison of experimental results of different basic networks

3.3.2 消融实验

为验证本文提出的多期相注意力融合网络的有效性,使用肝脏肿瘤图像数据集在不同网络模型上进行实验。实验主要分为2 大部分:

1)单期相实验:Single phase-NC、Single phase-ART 和Single phase-PV。

2)多期相实验:Model-1(使用早期融合,将3 个期相的数据融合为RGB 三通道的数据,如图2(a)所示)、Model-2(使用后期融合,3 个期相的数据通过单独的网络模型后,在输出时进行融合,如图2(b)所示)、Model-3(使用中期融合,3 个期相的数据在网络的每个阶段进行融合)和本文MAFNet 网络模型(如图3 所示)。不同网络模型的详细配置如表3 所示,其中“√”表示使用该配置,“×”表示不使用该配置。

表3 单期相模型和多期相模型的详细配置 Table 3 Detailed configuration of single phase model and multi-phase model

本文首先使用单期相(NC、ART、PV)数据进行实验。单期相模型分别使用不同单期相肝脏肿瘤图像进行实验,实验均采用ResNet50 作为基础网络。结果如表4所示,NC、ART 和PV 的准确率分别为67.42%、79.75%和81.93%。实验结果进一步证实,由于单期相数据包含较少的信息,而且不同患者肝脏肿瘤的外观形态和结构在一定程度上与注射造影剂时间有关,有的肝脏肿瘤只能在某个特定阶段期相影像中检测出来,仅利用单一的肝脏肿瘤影像容易忽略多期相CT 影像中时间序列包含的增强信息,导致分类性能差。该实验说明不同期相的肝脏病灶特征存在明显的差异。

表4 消融实验的结果对比 Table 4 Comparison of results of ablation experiment %

然后,使用相同的数据源,将本文模型MAFNet与3 个多期相模型(Model-1、Model-2 和Model-3)进行消融研究。Model-1、Model-2 的具体结构如图2所示。2 个测试集共4 个类的准确率和平均准确率如表4 所示,其中分类准确率的结果用平均值和偏差表示。由表4 可知,与单期相模型相比,多期相影像模型的准确率均有所提高,这是由于多期相CT 影像含有比单期相影像更丰富的信息,能够提取更多有用特征,有助于得到更高准确率的分类结果。此外,由于多期相网络模型能够关注期相之间的时序信息,因此能取得更好的分类效果。

第2 部分实验对比了早期融合、后期融合和中期融合的效果,结果如表4 所示。实验结果表明,使用中期融合策略的Model-3 的分类效果优于Model-1 和Model-2。这进一步表明,由于中期融合的网络模型能够提取、重组和融合低层和高层特征,因此中期融合的策略能更好地提取肝脏肿瘤图像所蕴含的信息。与Model-3 相比,使用MAM 模块的MAFNet 模型准确率提高了2.24 个百分点,这证明了MAM 模块可以增强包含有用信息的特征,从而更好地提取肝脏病灶特征。

3.3.3 与其他方法的对比

本文通过实验将本文方法与其他方法进行比较,实验结果如表5 所示,其中分类准确率用平均值和偏差表示。从表5 中可以看出,本文方法优于其他方法,平均准确率达到90.99%,并且在囊肿、局灶性结节性增生和肝细胞癌的分类任务上均取得较好的结果。这进一步表明,本文方法能够表示多期相影像间的增强模式,可以提取、重组和融合低层和高层特征。

表5 不同方法的实验结果对比 Table 5 Comparison of experimental results of different methods %

4 结束语

传统CNN 网络在提取多期影像特征时容易忽略多期相影像时序增强模式,导致肝脏病灶分类准确率有待提高。提出一种基于多期相注意力融合网络的肝脏病灶CT 影像分类网络MAFNet,使用单期相分支和融合分支构成的多分支结构构建模型,从而高效提取不同期相的时序增强模式。在融合分支中采用中期融合的方法,充分提取图像的不同层次的特征。利用MAM模块,根据图像包含的信息量,有选择地从单期相分支中收集特征,并使用这些加权特征对融合分支进行补充。实验结果表明,本文网络可以解决NC、ART 和PV这3 个期相影像包含的信息量不等、上下文分布不均等问题,能充分利用多期相肝脏CT 影像的时序特征,有效捕捉同一患者不同期相的信息。下一步将考虑影响每个类别分类结果的可变因素,完善网络结构,以提高分类准确率。

猜你喜欢

分支准确率肝脏
七种行为伤肝脏
肝脏里的胆管癌
一类离散时间反馈控制系统Hopf分支研究
一类四次扰动Liénard系统的极限环分支
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
加州鲈肝脏养护
巧分支与枝
高速公路车牌识别标识站准确率验证法