医学图像图深度学习分割算法综述
2022-06-23王国力魏本征
王国力,孙 宇,魏本征
1.山东中医药大学 医学人工智能研究中心,山东 青岛 266112
2.山东中医药大学 青岛中医药科学院,山东 青岛 266112
临床上,医学图像分割技术可通过改变医学图像的可视化过程,辅助医生进行ROI区域(组织器官或病灶)的快速定位、定性和定量的诊断分析[1]。当前人工智能技术已经渗透到医学图像处理的各个领域[2-4],极大地推动了医学图像智能分析技术的快速发展,并在辅助医疗方面发挥着越来越重要的作用。但是,如何高效地获取精准医学图像分割结果,仍是目前医学图像智能分析领域极具挑战性的问题之一。
卷积神经网络(convolutional neural network,CNN)作为人工智能中深度学习技术的代表,以端到端的工作方式,通过卷积核的平移不变性、权重参数共享以及特征快速提取,成功应用于医学图像分割[5]、分类[6]、病灶区域定位[7]和异常检测[8]等领域。传统的CNN依赖于卷积核尺寸所固定的连通性,可在固定有序的网格结构数据中提取局部区域的特征,使得CNN过于依赖几何先验条件,无法捕捉到医学图像中复杂的内在关系,导致其医学图像特征提取及表征性能有限。图深度学习是将深度学习算法应用到图数据的一种新兴技术,其利用图的强大表征能力,为医学图像中多组织器官或病灶的ROI区域难以转化为规则矩阵的问题提供了新的解决方法。图神经网络GNN(graph neural network)作为能充分挖掘拓扑结构数据间内在关系并建模的网络模型[9],其研究对象主要为图结构数据的顶点和边,在表示对象间复杂的依赖关系及在非欧式空间中对数据进行结构化建模等方面展现出巨大潜力[10]。与传统的CNN不同,GNN可以保持一种聚合信息的状态,能在图上按人工指定的深度聚合和表征信息,其对于不同图结构的数据,可设计不同结构的图深度学习模型进行处理分析。图卷积网络GCN(graph convolutional network)[11]是GNN中最为活跃的一种模型,其扩充了基于图的信号处理理论,并通过将频谱图中的卷积思想与GNN结合,使CNN中卷积操作的表示能力能够应用于不规则结构的图数据。GCN将卷积运算推广到非欧式空间数据上,方法是通过将给定顶点的特征与其相邻顶点的特征进行聚合,从而生成新的顶点特征表示。GCN生成的关系感知表示极大地增强了传统CNN中卷积核对于特征的提取能力,且相比于CNN,其无需较强的几何先验条件,能对大小尺寸不同且乱序输入的拓扑结构数据进行处理。GCN模型发展迅速,已在脑组织[12-13]、肺部气道[14]、冠状动脉血管[15]、胰腺[16]、前列腺[17]等部位的医学图像分割任务中取得了良好效果,引起了该领域研究者的广泛关注。
1 图卷积网络算法基础
1.1 图定义及表示
图可以由非空顶点集V和顶点之间的边集E组合表示为G=(V,E)。为更好反映高维度特征空间与图结构数据之间的关系,可将图表示为G=(V,E,A),A为邻接矩阵,表示为一个AN×N的方阵,描述了V中任意两个有关联节点间的连接关系。图结构中不仅有边相连的顶点间关系类型是任意的,且任意两个节点间均可存在某种相关关系,具有多对多的对应关系。如图1所示,为一个包含5个节点和6条边的无向图结构及其邻接矩阵。
图1 无向图结构及其邻接矩阵Fig.1 Undirected graph structure and its adjacency matrix
1.2 图卷积网络结构
1.2.1 消息传递框架
为对图卷积层的参数进行迭代更新训练,GCN中的映射函数可将数据从非欧式空间映射到欧式空间,并通过一套消息传递框架对图上节点间信息进行汇聚和传递,该消息传递框架如公式(1)所示:
其中,A为邻接矩阵;Hl+1是GCN第l+1层输出的特征信息,通过对A进行归一化和激活函数处理,可实现图特征信息的正向传播。其消息传播基本过程,如公式(2)所示:
一化处理后的度矩阵,Wl是模型中待训练的参数矩阵,σ为激活函数。
基于上述消息传递框架,按照图卷积操作方式,共有基于谱域的图卷积[18-19]和基于空域的图卷积[20-21]两种数据处理方式。下面将分别对这两种图卷积方式做简要介绍及分析。
1.2.2 谱域图卷积
通过对频谱图中的卷积分析研究,Estrach等人[11]提出了基于谱图滤波器的谱域图卷积操作。其操作步骤是,先通过对图的拉普拉斯矩阵进行特征值分解[22],后在傅里叶域中定义卷积运算。其中,归一化的图拉普拉斯算子定义如公式(3)所示:
其中,U是特征向量矩阵,Λ是特征值的对角矩阵。该谱图卷积运算可以定义为信号x∈ℝN(每个节点的标量)与谱图滤波器gθ=diag(θ)的乘积,其参数为θ∈ℝN,以*表示,如公式(4)所示:
为了将谱图卷积推向实用化,Defferrard等人[18]提出的切比雪夫谱卷积神经网络ChebNet(Chebyshev spectral CNN),该算法通过改变切比雪夫多项式的阶数m近似谱图滤波器,避免了傅里叶变换中基的计算。
为缓解因图节点度数的问题而可能发生的过拟合现象,Kipf等人[19]用一阶切比雪夫多项式近似模拟m阶切比雪夫多项式,提出了ChebNet的一阶近似形式,在降低计算时间复杂度的同时减少了网络的参数量,避免发生过拟合。
基于前期研究基础,新的改进模型不断被提出。有研究者设计了一种自适应图卷积网络AGCN(adaptive graph convolutional neural networks)[23],该网络将拉普拉斯矩阵参数化,并将其分为原始部分和优化部分,但网络图中虚拟顶点之间的连接不能直接从固有图中学习。
基于Cayley多项式构建的谱图滤波器,Levie等人[24]提出了能在频段图上针对于目标区域进行专门计算的凯莱谱卷积神经网络CayleyNet(Cayley spectral CNN),相比于ChebNet其更具有灵活性。通过结合符号传播理论、半监督学习方法以及谱图卷积,Cui等人[25]提出了一种用于有向符号网络的半监督门控谱图卷积DS-SGSGCN(semi-supervised gated spectral convolution in a directed signed network)。DS-SGS-GCN使用平衡理论来增强对符号传播过程的约束,以获得更具有解释性的网络嵌入,能满足大规模复杂网络的训练需求。
在保持数据的局部流形结构优势研究方面,Fu等人[26]利用图p-Laplacian矩阵的流形结构信息,将图p-Laplacian矩阵应用于谱图卷积,得到谱图p-拉普拉斯卷积,通过优化其一阶近似并引入分层规则的表示形式,构建了一种图p-Laplacian卷积网络GpLCN(graph p-Laplacian convolutional networks)。ARMA filter
(auto-regressive moving average)[27]作为一个非线性可训练的谱图滤波器,由循环运算的并行堆栈组成。其可通过有效的稀疏张量乘法逼近任意阶的谱图滤波器,能以较少的参数捕获数据的全局结构信息。
综上所述,谱域图卷积的优势是可将数据由空域转换到谱域做处理且具有坚实的理论基础。然而,谱域图卷积依赖于对图的拉普拉斯矩阵进行特征值分解,存在计算时间复杂度高且实用性低的问题。在提高谱图卷积的通用性及降低其计算时间复杂度方面,值得研究者进一步研究。
1.2.3 空域图卷积
空域的图卷积思想类似于CNN中对图像像素进行的卷积操作,通过将节点与邻居节点之间的特征信息进行传递并聚合,得到该节点新的特征表示[22]。
基于此思想,Kipf等人[19]提出的一阶近似ChebNet算法,该算法虽然是在频域上进行推导,但同样可在空域上进行解释,其基于空域上的图卷积可定义为公式(5):
基于前期研究进展,在空域上以不同方式进行消息汇聚的改进模型不断涌现。为解释具有不同图结构的数据,Xu等人[28]提出的图同构网络GIN(graph isomorphic network)通过对相邻节点的表示进行求和,实现了邻域内节点信息的汇聚。随后有研究者基于知识图谱设计了KGCN(knowledge graph convolutional networks)[29],KGCN实现了Sum、Concat和Neighbor三种类型的消息聚合器,具有良好的图分区性能且适用于图分类任务。
不同于上述工作在空间上对节点进行消息汇聚的方法,Cai等人[30]提出一种基于Transformer技术的空域GCN,该方法基于图自动编译器和多头注意力机制来描述全局的依赖关系,能在不考虑任意两个节点间输入图距离的情况下,对任意两个节点间的依赖关系进行建模。在属性图中对属性共现的全局信息进行建模研究方面,研究者提出了图协同注意力网络Graph-CAT(graph co-attention networks)[31],Graph-CAT采用了两个交互式注意力机制模块,实现从局部和全局两种角度增强节点的属性表示。为对节点和边同时具有离散和连续特征的图进行研究,Chen等人[32]提出的边缘特征图注意力网络EGAT(edge-featured graph attention network),EGAT通过将节点和边缘特征作为输入,并把边缘信息合并到特征表示中,以并行且交互的方式迭代更新节点及边缘特征。
综上,基于空域上的方法不再依赖于必须对图的拉普拉斯矩阵进行特征分解,并可将这种消息传递机制应用于有向图结构模型。关于上述谱域图卷积和空域图卷积的整体技术,在文献[33]整理的GCN发展时间轴基础上,本文补充完善的GCN算法研究发展时间轴如图2所示。
图2 GCN算法研究发展时间轴Fig.2 Timeline of GCN development
2 基于图深度学习的医学图像分割应用研究
GCN作为图深度学习技术在医学图像分割中应用最广泛的模型之一,能充分挖掘ROI区域的空间位置信息和几何形状信息。为进一步提高其医学图像分割算法性能,现有研究者借鉴CNN的改进思路,分别结合残差模块、注意力机制模块及学习模块对GCN进行改进设计。本部分将以三种改进技术为主线,介绍GCN与不同模块结合后的算法模型在医学图像分割中的最新研究进展。
2.1 GCN+残差模块类分割模型
现有研究表明,神经网络的特征提取能力会随着网络层数加深而增强,因此将GCN的网络层数像CNN一样叠加到多层且克服过平滑问题是GCN的研究热点之一[34]。He等人[34]提出的残差神经网络ResNet(residual network),残差模块结构如图3所示。通过在网络层间引入跳连接机制,并以恒等映射的方式传递网络层间的信息,解决了神经网络层数叠加至多层时性能退化和梯度消失问题。
图3 残差模块结构示意图Fig.3 Residual module structure
基于此,在研究中Kipf等人[19]用残差连接将图结构中节点自身的特征直接实现跨层传播,为构建深层GCN模型奠定了理论基础。基于对相邻节点间权重信息的研究,Chiang等人[35]在恒等映射的残差模块中加入了权重计算,使节点自身的特征权重得到增强,且GCN在跳连接中传递的信息也更为丰富。此外,Tang等人[36]提出一种残差图学习网络RGLN(residual graph learning network),其通过学习基础图中新边之间的连通性及权重,可在低秩假设下将图形学习转换为距离度量学习。
随着GCN与残差模块结合的技术发展越来越成熟,Yang等人[37]设计的条件部分残差图卷积网络CPRGCN(conditional partial-residual graph convolutional network)是GCN与残差模块结合的代表性工作之一,其局部残差块应用于提取ROI区域的位置特征,在模型中的结构图如图4所示。通过利用GCN结合ROI区域的位置结构信息和三维图像信息,并经过端到端的模型训练,完成了对CT图像中冠状动脉的分割任务,但由于网络结构较浅,会遗失对细小分支血管的分割。
图4 CPR-GCN中的残差模块图Fig.4 Residual model in CPR-GCN structure
同样在血管分割方面,Zhou等人[38]将残差模块嵌入GCN,用于增强其对特征信息的传递。并将血管的形状结构信息构建图数据,将血管的生理特征作为节点特征,实现了对CT图像中动脉血管的分割,但模型无法进行端到端训练。
有研究者通过借鉴GCN与残差模块结合在动脉血管分割上取得的成功,在腺体器官分割方面展开研究。其中,Tian等人[39]设计了由2个图卷积层和6个级联残差图卷积层组成的多层GCN模型,并通过级联残差模块获得多尺度ROI区域的空间特征,实现了对MRI图像中前列腺轮廓的完整分割,但缺点是计算量大,对数据量需求高。在对胰腺分割研究方面,Zhao等人[40]采用在GCN层间嵌入残差模块的方法,从多粒度角度提取特征,并充分利用ROI区域的几何和位置信息,实现了对不同胰腺疾病的完整分割。
在视网膜层边界的分割方面,Hu等人[41]采用嵌入式残差递归网络和图搜索技术结合的方法,在残差递归网络对ROI区域粗分割的基础上,将每个ROI区域的候选像素构建成一个有向图,再利用图的连续性和平滑性对其进行细化,最终实现了对OCT图像中视网膜层边界的精确分割。其中残差模块在缓解梯度消失问题的同时保护了底层特征信息的传输,缺点是增加了模型的复杂度。Ouyang等人[42]从图结构构造角度出发,采用超像素作为图节点,并提出一种新的图像分割框架DSSNGCN(deep semantic segmentation network-graph convolutional network),利用残差模块对特征图进行编码的方式提高特征提取的能力,还通过考虑节点的谱域信息和空间信息计算出代表空间关系重要性的图权重,并依据提取的图节点特征和图权重,实现对图像边界的完整分割,但网络模型复杂,计算量大。
不同于在GCN结构上嵌入残差模块的改进方式,Meng等人[43]基于残差模块的思想对GCN底层逻辑中的拉普拉斯算子做了改进,将ROI区域的边界特征融于构造的拉普拉斯矩阵,增强了其边界特征,强调了跨ROI区域的边界感知相关性,完成了对结肠镜下息肉、眼底视神经盘等图像ROI区域的分割任务,缺点是增加了模型的计算复杂度。
在增加GCN网络层数研究方面,Li等人[44]提出了深度图卷积网络框架(DeepGCNs),将残差模块从CNN转移到GCN上,在训练112层的GCN时也可以平稳收敛,推动了训练深层次GCN的发展。
本文对上述研究从ROI区域的构图方式、将残差模块嵌入GCN中发挥的优势及应用场景等方面进行了总结,并对GCN+残差模块的部分代表性工作做了梳理,如表1所示。
表1 GCN+残差模块的图深度学习分割模型统计表Table 1 Statistics table of graph deep learning segmentation model of GCN+residual module
通过分析发现,大部分工作直接依据ROI区域的生理结构的几何形状建造图结构,并将残差模块嵌入GCN层之间,构造深层GCN结构。该改进方法可提取多尺度的空间特征并对底层特征信息实现跨层传递,且避免了梯度消失等问题,提高了模型在医学图像分割上的整体性能。但上述改进主要存在:(1)残差模块可有效提升分割模型的精度,但也增加了模型的复杂度和计算量;(2)GCN通过残差模块在获取多尺度空间特征的同时,也增加了模型复杂度和训练时间;(3)残差模块虽能缓解GCN的梯度消失及增强模型的抗过平滑能力,但却过分依赖数据量,容易出现过拟合问题。
因此,本文认为GCN+残差模块类医学图像分割模型,在未来应着重解决以下问题:一是轻量级设计深层残差GCN分割模型,减少其参数量,降低计算时间复杂度;二是实现多尺度特征信息间的互补性,消除冗余特征;三是基于小数据集设计分割模型。
2.2 GCN+注意力机制模块类分割模型
注意力机制模块可衡量图像中不同特征之间重要性。在深度学习技术中,引入注意力机制模块能够赋予关键特征较高的权重,从而抑制无用信息的干扰,进而提高模型处理信息的效率。
目前注意力机制模块主要可分为软注意力机制模块(soft attention mechanism)[45]和自注意力机制模块(self-attentional mechanism)[46]两种类型。其中,软注意力机制模块可以通过基于梯度的方法进行端到端的训练,并学习输入序列中最相关的部分;自注意力机制模块的特点是可以无视各部分间的距离直接计算依赖关系,能学习输入部分的内部结构,其实现也较为简单并且可并行计算。因此,根据医学图像分析任务的特点,注意力机制模块作为一种用于解释网络输出和发现网络已学习到的底层依赖关系的工具[47],被广泛应用于医学图像处理及分析中,并展现出良好的性能。
在此方面的研究中,Veličković等人[48]提出图注意力机制模块GAT(graph attention network),其模块结构图[48],如图5所示。该模块首次将自注意力机制模块与GCN结合,判断节点间的重要性并分别为其赋予不同的权重,开辟了GCN与注意力机制模块结合的新思路。
图5 图注意力机制模块结构图Fig.5 GAT model structure
基于此,有研究者将GAT直接应用于医学图像分割研究方面,Cucurull等人[49]将大脑皮层定义为一个网格,并建立图结构,采用GAT模型结合局部ROI区域表面生理特征和全局信息,实现了对MRI图像中ROI区域内大脑皮层的分割,但GAT中的自注意力机制模块依赖于节点特征,尚未利用数据的底层结构进行预测,灵活性较差。Hampe等人[50]通过构造血管树形图,将冠状动脉段定义为图的边缘,并使用GAT模型结合血管树的位置及几何特征,完成了对CT图像中冠状动脉树片段的自动标记任务,缺点是对小ROI区域的自动标记效果不佳。
不同于将上述工作中将GAT作为基础模型并改进的研究思路,Yin等人[54]将GCN与基于自注意力机制模块的多示例学习进行结合,通过GCN细化示例级特征间的潜在关系,采用基于自注意力模块的多示例池化层学习包级特征,实现了对肾脏超声图像中ROI区域的分割,但该模型计算复杂度高且无法端到端训练并优化。类似地,Chang等人[55]采用堆叠GCN的方式捕获脊椎之间的全局空间关系,并通过注意力机制模块减少因相邻椎体的外观相似而引起的歧义,以及通过端到端训练模型,对任意输入的MRI图像实现了多椎骨分割,但模型计算量大且计算复杂度高。
另外,Lu等人[56]提出的新型语义分割图模型(CNN-G)在肺部CT图像、胃镜图像上取得了良好的分割效果,是图深度学习算法结合注意力机制模块的代表性工作之一,其模型结构图[56],如图6所示。一方面CNN-G在语义分割中引入GAT,增加了对整体结构信息的提取。另一方面,CNN-G采用自注意机制模块构建图模块,使模型能充分结合局部特征和整体结构信息进行图像分割,解决了增加感受野和保留位置信息之间的矛盾。缺点是图结构的邻接矩阵无法自动更新,导致模型对于不同数据集的计算复杂度高。
图6 CNN-G中的注意力模型图Fig.6 Attention model in CNN-G structure
Ma等人[57]将GCN与GAT嵌入U型网络中,采用GCN捕捉空间维度上不同ROI区域之间的远距离关系,而GAT对语义相似的通道间的上下文相关性进行建模,完成了对于脑肿瘤的分割任务,但增加了模型训练时间和复杂度。
通过利用血管间连通性的先验知识,Li等人[58]采用GAT对肝脏血管的图形连接信息进行建模,并将GAT通过插件机制与U-Net集成。在不增加推理阶段的硬件和时间成本的基础上,实现了对CT图像中肝脏血管的分割,缺点是对细小血管分支的分割效果不佳。
此外,针对于癌症预测的问题,Chen等人[59]将节点特征按层次结构进行聚合,并采用基于注意力的GCN结合上下文感知,完成对全景病理图像WSI(whole slide image)中ROI区域的精准预测。类似地,为增强对肺部ROI区域分割中长距离依赖性关系的建模能力,Jia等人[60]将分割主干生成特征的每个像素作为节点构造图结构,并通过仅保持每个不确定像素的有限个最强连接,将图转换为稀疏连接图且进行远距离信息推理以生成增强特征,完成对肺部CT图像中ROI区域的精准分割。但推理模块结构复杂,增加了模型的训练时间。
基于上述研究,本文从ROI区域的构图方式、不同类别的注意力模型及其与GCN结合后发挥的优势及应用场景等方面进行了总结,并对GCN+注意力模块的部分代表性工作做了梳理,如表2所示。经分析,相比于GCN+残差模块的改进策略,注意力模块能使GCN更多地关注ROI区域的重要特征,提高模型的运算效率,进而增强模型分割性能。然而,GCN+注意力模块类分割模型普遍存在复杂度高、计算量大等问题,所以在GCN+注意力模块的改进方面,未来应对模型的轻量化展开研究。
表2 GCN+注意力机制模块的图深度学习分割模型统计表Table 2 Statistics table of graph deep learning segmentation model of GCN+attention mechanism module
2.3 GCN+学习模块类分割模型
医学图像中病灶区域的不确定性使得简单的GCN难以获得很好的分割性能,而合理地将GCN与理论基础坚实的机器学习算法[61]以及对2D图像特征提取能力强的深度学习算法等学习模块进行复合后,得到的GCN+学习模块类图深度学习算法在医学图像分割任务上展现出良好的分割效果。GCN+学习模块算法的结构图,如图7所示。
图7 GCN+学习模块算法结构图Fig.7 Algorithm structure diagram of GCN+learning module
基于此,Zhang等人[13]采用GCN与KNN算法[62]进行结合对脑组织进行分割,通过采用KNN算法将由三维MRI图像中生成的超体素作为图节点构建图结构,并基于半监督学习的方式训练GCN,实现了对MRI图像中脑组织的分割任务,缺点是模型的计算量大。该方法作为GCN与机器学习算法进行结合的代表性工作之一,其算法框架图如图8所示。
图8 GCN+KNN算法结构图Fig.8 Structure diagram of GCN+KNN algorithm
在对CT图像中血管分割的研究方面,Wolterink等人[63]采用KNN将动脉腔表面网格上的顶点作为节点构建图结构,并结合GCN对节点间的信息传递进行优化。实现了可在无网格交互的情况下对CT图像中的血管进行分割,缺点是模型的分割性能依赖于血管中心线位置的准确性。
连接式合建方案(见图5):即下部车站钢管柱与上部桥梁承台固结,由桥梁桩基及承台、地铁车站钢管柱、桥梁墩柱组成“桩-柱-墩全固结联合体”结构,通过在地铁顶板处设置承台,从而连接上部桥梁桩基和下部地铁车站钢管桩,传递由上部桥梁荷载而产生的轴力、弯矩以及剪力。
不同于将GCN结合KNN的研究思路,Sun等人[64]通过将AdaBoost算法嵌入GCN中,在所有图卷积层之间共享相同的基本结构,并挖掘不同图卷积层的邻居节点上的信息,且利用AdaBoost算法对其进行递归优化,在一定程度上缓解了过平滑问题,而其局限性主要在于图结构数据对于数据具有一定的依赖性,其邻接矩阵无法动态更新。类似地,Ivanov等人[65]通过结合GNN与梯度提升决策树GBDT(gradient boosting decision tree)[66]处理异构表格数据。主要采用GBDT建立异构数据通用的超平面决策边界,并利用GNN对预测的关系信息进行细化。模型实现了端到端的训练,并增强了GNN模型对表格数据的表征能力,但该方法尚未实现应用于图级任务。
与上述工作将GCN与监督学习类的机器学习算法进行组合的思路不同的是,Soberanis-Mukul等人[67]提出一种基于图的半监督学习模型并结合蒙特卡洛辍学方法MCDO(Monte Carlo dropout)分析模型的期望和不确定性特征,并采用GCN辅助细化模型的全局分割结果,完成了在CT图像中分割脾脏的任务,但模型对于内存空间的需求较大。Demir等人[68]以Soberanis-Mukul等人[67]的工作为基线,通过选择ROI区域内部分体素及邻域内特定体素作为节点构造图结构,实现了一种图上动态邻居节点的选择机制,并以半监督学习方式训练GCN模型进行预测,完成了在CT图像上对胰腺的分割任务,缺点是这种动态节点选择机制增加了模型的计算量与训练时间。
在对脑组织分割的半监督学习算法研究方面,Zhang等人[12]放弃体素分割的方法,采用GCN从超体素中生成特征图,并利用切比雪夫网络进行超体素的特征图融合及分类,再通过将标签投影回体素,实现在MRI图像中对脑组织的分割,缺点是计算复杂度高,模型训练时间长。类似的,Wu等人[69]采用GCN直接在原始大脑皮层表面的流行结构上分割ROI区域,且无需球面映射和配准,但模型复杂度高,训练开销大。
在GCN与无监督学习类模块结合方面,Li等人[70]设计了GCN+元学习策略构建自适应分割框架,主要通过元学习策略在原图像与变换图像间获取平衡,提取更多的有效特征信息,并采用GCN确保关键结构特征的完整性,在对未标记胰腺癌图像进行辅助诊断时展现出良好的效果,但模型结构复杂,且在对不同尺度的目标自适应方面有待提高。
在GCN与传统卷积网络结合的研究方面,Gao等人[71]通过CNN提取血管的几何特征并结合GCN表征血管间的结构关系,在不依赖血管中心线的情况下实现了对CT图像中血管的全自动分割,但模型对细小血管分支的分割效果不佳。类似地,Kumar等人[72]采用K均值聚类KMC(K-means clustering)方法对CNN提取的特征构造图数据,并结合GCN学习关系感知表示特征,实现了对胸部X光片图像中ROI区域的精准分割,缺点是模型的计算复杂度高。Gaggion等人[73]通过结合图邻接矩阵与连通性信息,在无配对图像的密集解剖掩码中构造图结构,并基于编码解码结构复合GCN和传统卷积,对胸部X射线图像上的ROI区域进行分割。同样地,Joshi等人[74]将MRI图像中ROI区域的体素作为节点构造图结构,并利用GCN与自编码器网络AE(autoencoder)复合的模型,结合局部ROI区域的图像信息以及邻居的全局连通性信息,通过端到端的模型训练,实现了对ROI区域的精准分割,但模型的训练时间复杂度高且内存空间需求大。
另外,在弱监督的病理图像分割研究方面,Zhang等人[75]采用统计直方图特征间的相似性分配边缘权值构造图结构,并将图像级标签作为弱监督信息,复合GCN与FCN进行端到端的模型训练,实现了在WSI图像上对ROI区域的完整分割,缺点是计算量大且训练成本高。在动态GCN应用的研究方面,Zhao等人[76]通过计算ROI时间序列的Pearson相关矩阵构建图数据的邻接矩阵,并采用GCN将动态图计算和多跳邻居节点的特征进行聚合,实现了在fMRI图像中精准捕捉ROI区域的潜在信息关系,但模型的计算量大且训练时间长。
本文对上述研究从构图方式、GCN+学习模块组成及最佳分割性能等方面进行了总结,并对部分GCN+学习模块类分割算法做了梳理,如表3所示。经分析发现,在GCN+传统机器学习模块的改进策略中,将GCN与有监督、半监督学习算法进行结合的工作居多,且结合机器学习后的GCN更具理论支撑,但此类改进模型对于数据具有较强的依赖性,模型灵活性较差。在GCN+传统的卷积网络的改进策略中,常基于编码解码结构对二者进行复合,充分将传统卷积操作的特征提取优势与GCN对ROI区域结构信息提取的优势进行了互补,但此类改进模型计算量大且占用内存空间多。因此,如何更合理地复合GCN+不同的学习模块,并降低其模型计算量,是相关研究后续值得探索的方向。
表3 GCN+学习模块的图深度学习分割模型统计表Table 3 Statistics table of graph deep learning segmentation model of GCN+learning module
3 图深度学习在医学图像分割中的挑战与机遇
图深度学习算法自身具有表征生理上的功能连接、解剖结构等复杂信息的能力,特别是结合经典的残差模块、注意力机制模块及学习模块后,进一步提高其在医学图像分割方面的实用性,但还存在很多有待解决的问题。本部分将对图深度学习在医学图像分割中的挑战与发展方向展开归纳讨论。
3.1 图深度学习在医学图像分割中的挑战
通过上述研究,本文将图深度学习在医学图像分割中的挑战归纳为图深度学习算法、GCN+模型算法及医学图像数据的特性三个方面。
(1)在图深度学习算法方面,主要可归纳为ROI区域构建图表示和图的边属性学习问题。首先,ROI区域构建图表示问题主要是由于没有为GCN模型构造图数据的标准化方法,现有研究多采用预设的连通性并以手工设计图数据的方式[71,77]对医学图像中的ROI区域构建图表示。这使得GCN在处理组织间具有依赖关系和底层生理结构随时间变化的医学数据时,容易忽略图的动态权重更新和节点间连通性。其次,在图的边属性学习方面,由于其节点与边之间强大的表达能力,目前大多数工作过度强调图节点的重要性,将节点作为主要学习对象,忽略了对边属性的研究,尚未充分发挥节点和边之间的结构优势。
(2)在GCN+模型算法应用方面,尚存在模型训练成本高及透明度缺乏等问题。首先,在训练成本方面,应用GCN+模型技术分割医学图像时主要面临模型训练消耗内存高、推断延迟等问题。尽管已有研究者提出一些GCN的优化学习算法,如分层学习、快速学习和随机学习等[35,78-79],但如何将这些减轻训练成本的策略引入医学图像分割任务中是当前GCN+模型算法所面临的挑战之一。其次,在算法透明度方面,模型缺乏对决策过程的展现且现有的卷积网络模型解释器难以直接用于解释图深度学习算法,这使得GCN+模型的输出结果难以理解,成为图深度学习临床辅助诊断及应用的主要障碍。
(3)医学图像数据的特性方面,主要存在单张图像数据前景和背景不平衡及目标结构异质化问题。首先,前景和背景的不平衡会导致模型偏置而引起局部极值问题,所以在前景背景相近的医学图像数据集上构建高效的图表示,是图深度学习在医学图像处理方面面临的挑战之一。其次,在目标结构异质化方面,由于图深度学习难以精准表示不同患者和疾病的ROI区域(靶器官、病变组织等)大小、形状和位置,所以ROI区域的异质化是图深度学习在医学图像精准分割中的一大挑战。
3.2 图深度学习在医学图像分割中的未来趋势
经对现有研究及挑战的总结分析可知,本文将图深度学习在医学图像分割中的研究方向主要概括为以下5个方面:
(1)应用图深度学习处理具有功能依赖及存在动态空间关系的医学数据,从动态医学数据中挖掘潜在结构联系并学习其动态空间依赖性,实现邻居矩阵的自动推理生成,是值得研究者进一步研究的方向。
(2)在图深度学习模型构建中嵌入特定的医学先验知识,引导信息在图节点之间进行灵活传播,并将部分额外信息嵌入边作为补充信息的辅助学习对象,以此拓宽临床辅助诊断的应用领域,是该领域未来的一个研究方向。
(3)设计特征表达能力更强的图结构,利用基于图的弱监督和半监督学习算法实现对医学图像进行特征提取及R0I区域分割,用于解决医学图像数据标注中的问题,是该领域一个研究方向。
(4)提升图深度学习的可解释性,增强图深度学习的决策透明度,以临床需求为中心,提高不同模型在临床应用中的泛化性,降低医生对结果的理解难度,是未来拓宽图深度学习模型临床应用场景的一个研究方向。
(5)利用图深度学习的强大信息表征能力在小样本的医学图像数据集上进行建模,并设计轻量化网络结构和低训练成本的学习策略,缓解算法训练成本高、医学图像数据量小等难题,是未来提高医学图像智能分析水平的一个研究方向。
4 总结
本文首先阐述了图深度学习算法中图的定义及GCN的基本结构、工作原理,并从GCN+算法的三种不同结构模式出发,梳理总结了图深度学习算法在医学图像分割上的最新研究进展,并对图深度学习算法及其在医学图像分割中的挑战与未来研究方向做了讨论分析。基于前述研究,图深度学习算法具有高灵活性与高适应性,在医学图像分割中具有广阔的应用前景。有理由相信随着图深度学习算法研究的深入发展,未来图深度学习算法应用于医学图像分割任务会取得更大成功,并发挥更大临床应用价值。