基于改进U-Net 的人脑黑质致密部分割

2023-01-09曹加旺田维维刘学玲李郁欣

计算机工程 2022年11期

曹加旺，田维维，刘学玲，李郁欣，冯瑞

（1.复旦大学工程与应用技术研究院，上海 200433；2.复旦大学附属华山医院放射科，上海 200433）

0 概述

帕金森病是一种神经变性疾病，多发于中老年人。随着核磁共振成像（Magnetic Resonance Imaging，MRI）技术以及相关设备的发展，人们能够更进一步地观察患者的脑部结构，从而探究帕金森病的病因和诊断标准。近年来，对帕金森病的各项研究结果表明，脑黑质（Substantia Nigra，SN）的大小、形态、体积等特征可用于辅助诊断帕金森病，尤其是黑质致密部（Substantia Nigra pars compacta，SNpc）的体积与帕金森病存在一定关联［1-3］。因此，对人脑SNpc 进行精准分割，有利于准确观察脑黑质的结构变化，对帕金森病的早期筛查及计算机辅助诊断具有重要意义。

早期的SNpc 分割多采用传统算法，如基于梯度算子和能量函数的黑质神经核团分割算法等。近年来，一些学者开始使用基于全连接神经网络（Fully Connect Neural Network，FCN）［4］的模型，以及基于FCN 的变体神经网络结构，如U 形神经网络（U-Shape Neural Network，U-Net）［5-7］模型。相较传统方法，基于神经网络的分割方法在多数医学影像分割任务中取得了显著的效果提升，但是在对SNpc进行分割时准确率提升仍然有限［8］。分析原因主要有两点：对医学影像分割算法的研究往往集中在对低维语义信息的特征提取上，当低维语义信息足够分辨目标对象时，U-Net 模型的“跨连接”结构能够在训练阶段自动调整相应采样模块的权重参数，但是当低维语义信息不足以分辨目标时，如当图像中出现色彩线条相似的组织和结构时，其底部结构不能充分利用多次下采样后的高维语义特征，因此，在模型结构以及学习机制上还需改进；黑质致密部的分割任务本身还存在若干难点，脑黑质致密部占比小，对算法感知能力要求高，脑黑质边缘不够清晰且形变较大，在数据量有限的情况下难以提升算法准确性，此外，基于神经网络的分割模型由于需要多次下采样，造成上下文特征丢失，导致分割出了不连续的目标片段等，因此，还需要利用一些后处理手段（如平滑算子等），但这又会引入其他超参数。

为了解决上述问题，提升帕金森病关键黑质神经核团的分割精度，改善计算机辅助诊断系统对帕金森病关键核团的显示效果，本文提出一种基于改进U-Net 的帕金森病关键神经核团分割算法。设计基于Transformer 的高维语义特征提取模块，提高U-Net 的高维语义信息提取能力。针对黑质致密部的分布特点，提出一种基于局部地区权重掩膜的分布损失函数，以改善模型分割效果。

1 相关工作

1.1 医学影像分割

近年来，基于全连接神经网络的分割算法被广泛应用于医学影像分割任务。相比传统的手工特征提取算法，基于FCN 的模型能够端到端训练，内部参数都可在训练中通过梯度下降方法求解。基于FCN的分割模型采用卷积神经网络（Convolution Neural Network，CNN）同时作为编码器和解码器，相较传统的手工特征，CNN 对图像特征提取能力更强，误差更低。具有代表性的FCN 有U-Net 模型，其将编码器模块的浅层语义特征以跨连接的方式输入解码器模块，形成对称的神经网络模型结构，从而提高模型对不同感受野、不同层次语义特征的捕获能力。近期的医学影像分割算法一般使用改进的U-Net 结构（如R2U-Net［9］），在U-Net 的编码器模块加入残差卷积层，Attention U-Net［10］在U-Net 的跨连接部分加入注意力机制，提高了模型对小目标的敏感度。

当上述方法被应用在一些小目标器官或病灶分割任务中时，各项指标仍未达到临床应用水平。因此，一些学者提出针对小目标分割的改进方法，主要包括两类：

1）第一类方法通过改进小目标分割流程来提高精度。文献［11］将小目标分割分解为双阶段任务，第一步采用检测模型在大范围内找到感兴趣区域，第二步利用分割模型在感兴趣区域内进行分割，从而降低背景噪声的影响。文献［12］通过融合分水岭算法分支的后处理，提高模型在目标边缘部分的分割精度。这类方法存在的普遍问题是模型结构较为复杂，且需要调整更多的超参数，不利于实际应用。

2）第二类方法通过改进注意力模型来提高对小目标的感受能力。文献［13］将门控式的边缘检测作为注意力图，提高了模型对小目标边缘部分的感知能力。文献［14］将密集连接网络与注意力机制相结合，使模型主动学习重点目标区域。文献［15］将残差网络与注意力机制相结合，采用多尺度输入在提高感受野的同时降低噪声影响。文献［16］结合多尺度卷积与双通道注意力模块，进一步提高了模型的全局感受野。但是，上述注意力模块的引入仍是在跨连接模块中加强对低维语义信息的感知能力。HANet［17］在U-Net 结构的基础上改进底部的注意力模块，利用图网络模型以及传递闭包算法增加注意力模块的感受野，从而提升模型对包括高维语义信息在内的全局信息的捕捉能力。

在实践中发现，上述医学分割方法在脑黑质致密部分割中依然存在一定的局限性。由于U 型神经网络多次下采样的结构特点，导致其容易丢失上下文信息，在高维语义信息识别方面能力不足。如图1所示，人脑黑质致密部分布并不均匀，因此，有可能在图像分割结果中出现不连续的分割片段。

图1 人脑SNpc 分割结果Fig.1 Brain SNpc segmentation results

1.2 Transformer 编码器

注意力机制［18］在长序列分析任务中具有显著优势，在神经网络模型中添加注意力模块，有利于模型更加关注那些对分类置信度影响较大的特征。近年来，对计算机视觉中注意力机制的研究结果表明，基于序列模型的多头注意力机制不仅可用于自然语言处理问题，也适用于图像识别问题。文献［19］指出一幅图像可以被表示为一个16×16 的切片图像序列，因此，融合多头注意力机制的Transformer 编码器可以被应用于计算机视觉任务，如图像识别［19-20］、目标检测［21-22］、语义分割［23-24］等。由于卷积神经网络可以更加高效地提取浅层视觉特征，多头注意力机制则常用于高维语义特征提取，上述计算机视觉任务中的Transformer 模型设计需要结合两者共同的优点。另外，基于Transformer 的分割算法模型结构复杂，模型训练容易过拟合，需要大量的标注数据集，因此，将Transformer 应用在医学影像分割任务中的相关研究仍处于起步阶段。

1.3 多任务学习

多任务学习指的是在机器学习中通过设计另一个辅助任务来帮助模型进一步理解主要任务。在神经网络模型中，通过改进损失函数可以学习多个任务，如在医学影像多疾病分类学习过程中同时学习图像中有无病灶［25］，有利于模型充分理解病灶，防止学习潜在偏差。通过多任务学习策略可以在一定程度上缓解过拟合问题［26］。观察发现，人脑黑质致密部的分布大致呈中心对称的两块区域，因此，可以构建区域学习任务，使模型更加关注目标位置。

2 基于改进U-Net 的人脑SNpc 分割算法

本文提出的改进U-Net 结构在高维语义提取部分结合Transformer 编码器，提升模型对高维语义特征的理解能力。为了解决下采样环节中上下文丢失的问题，提出基于二维高斯核权重掩膜的损失函数，通过多任务学习使神经网络模型更加关注对称中心区域的像素识别损失。

2.1 模型结构

本文提出的基于改进U-Net 的人脑SNpc 分割神经网络模型结构如图2 所示。

图2 基于改进U-Net 的人脑SNpc 分割模型Fig.2 Brain SNpc segmentation model based on improved U-Net

被分割的核磁共振影像切片为单通道图像，堆叠到三通道后输入到神经网络模型中。设输入图像Iin∈RM×N×C，经过神经网络(NN)后，端到端地输出分割结果图像Iout∈RM×N×C，如式（1）所示：

其中：M和N分别是输入图像的长和宽；C为通道数。

如图3 所示，编码器部分包含4 个下采样卷积块，每个下采样卷积块包括2 个3×3 卷积层、2 个归一化层（Batch Normalization，BN）和1 个池化层。

图3 下采样卷积块Fig.3 Down-sampled convolution block

将图像Iin输入到下采样卷积块中（4 次），通过下采样过程分别得到4 个特征图，其中，i∈{1，2，3，4}，分别代表经过4 次下采样后的顺序。特征图如式（2）所示：

每次经过下采样块后，特征图的维度都会降低一半，在改进U-Net 网络的底部，将高维语义特征reshape 输入到基于Transformer 的高维语义特征编码模块。高维特征的感受野更大，含有更丰富的语义信息。将特征图进行重组得到高维语义特征，经过基于Transformer 的高维语义编码模块得到修正特征，同样经过重组后得到，再输入到4 个上采样卷积块中。如图4 所示，每个上采样卷积块包括2 个卷积层、2 个BN 层和1 个最大池化层。

图4 上采样卷积块Fig.4 Up-sampled convolution block

其中：⊕表示按通道组合操作。最终经过类激活层输出分割结果，如式（4）所示，其中卷积层的卷积核大小为1×1。

2.2 基于Transformer 的高维语义特征编码模块

Transformer 是一种基于序列的模型，因此，在经过4 次下采样后，需要将高维语义特征重组得到。输入Ft到基于Transformer的高维语义特征编码模块，其结构如图5 所示。

图5 基于Transformer 的高维语义特征编码模块结构Fig.5 High-level semantic feature encode module structure based on Transformer

基于Transformer 的高维语义特征编码模块包含若干个子模块。在本文中，特征序列按通道数切分，由于卷积和注意力计算没有位置信息，为了保留图像序列的位置信息，需要对特征进行位置编码，位置编码函数如式（5）、式（6）所示：

其中：l为索引；d为总维度；为通道数切分后的特征序列编号，当编号为偶数时采用式（5）编码，当编号为奇数时采用式（6）编码。

在本文中，位置编码与输入序列直接相加，如式（7）所示：

其中：X为单层神经网络中一个神经元的数值；E[X]为所有神经元的均值；Var[X]为方差；ε为极小值；γ、β为超参数，一般取γ=1，β=0。

MSA(·)表示多头注意力计算，如式（11）所示：

其中：WO为输出层的权重为Concatenation操作，表示直接聚合h个输出结果。SA(·)表示单头注意力计算，如式（12）所示：

本文将Transformer 模块作为编码器融合到U-Net 网络中，从而提升模型对高维语义信息的理解能力。取Transformer 编码器最后一层的输出结果作为修正特征，重组后输入上采样模块。

2.3 基于二维高斯核权重掩膜的损失函数

一般分割网络常用的损失函数为戴斯相关损失，用于评价2 个样本分布之间的相似性。戴斯相关损失越小，代表2 个样本分布越接近，其计算方法如式（14）所示：

其中：X和Y分别表示真值样本和预测值样本；ε为极小值，用来防止分子或分母为0；X∩Y表示取两者的交集。为了便于计算，X∩Y一般取预测为真阳的样本，计算方法如式（15）所示：

其中：ti表示第i个样本的真值；yi表示第i个样本的预测值。针对本文的分割任务，真值和预测值的取值范围均为[0，1]。

对于人脑黑质致密部分割而言，其边缘部位往往更难判断，中心位置判别相对容易，然而实验结果却是中心部位往往会分割出不连续的片段，这是因为黑质致密部像素占比过小，模型多次下采样后容易丢失形态信息。为了进一步加强模型对特定区域的学习能力，避免分割出不连续的片段，本文设计一种基于二维高斯核权重掩膜的损失函数。

考虑到待分割目标位置分布的特殊性，对于真值标签图像，首先利用搜索连通图分离出两小块人脑黑质致密部标签，分别利用一阶中心矩计算样本的2 个区域中心，如式（16）、式（17）所示：

其中：P(x，y) ∈{0，1}表示图像坐标为(x，y)的像素值；表示重心的坐标位置。

利用二维高斯核函数映射得到权重掩膜Wmask(x，y)∈RM×N×1，计算方法如式（18）所示：

基于二维高斯核函数的权重掩膜可以使模型更加关注特定位置的预测损失，有利于模型学习到更重要的信息。本文计算得出二维高斯核函数权重掩膜结果如图6 所示，图6（a）～图6（c）分别是人脑核磁共振成像图、真值标签以及基于标签生成的高斯核权重掩膜。

图6 二维高斯核权重掩膜Fig.6 2D Gaussian kernel weight mask

为了加强模型对中心部位的识别能力，对这一部分的识别损失函数进行线性加权增强。改进均方误差（Mean-Square Error，MSE）损失，进行特定位置的加权，得到的损失函数如式（19）所示：

最终得到损失函数如式（20）所示，λ∈[0，1]为超参数，代表二维高斯核函数掩膜损失的权重，本文取λ=1，并在3.3.2 节的消融实验中测试模型结果对多任务损失函数权重λ变化的敏感程度。

3 实验结果与分析

为了验证基于改进U-Net 的人脑黑质致密部识别模型的分割效果，收集并处理人脑MRI 标准数据集，以戴斯相关系数作为评价标准，分析分割算法的性能，同时验证本文基于Transformer 的编码器以及基于二维高斯核权重掩膜的损失函数的性能表现。

3.1 数据集与评价标准

本次实验共收集188 个志愿者（140 个帕金森病患者和48 个健康对照者）的脑核磁共振成像，其中每个成像数据含有100～300 张不等的横截面切片，数据采集基于复旦大学附属华山医院放射科平台，所有磁共振检查图像均使用配备8 通道头部基质线圈的3.0-T 扫描仪（型号为discoveryery TM MR750，GE Healthcare）获得，采用3D 多梯度回波（GRE）成像，利用前3 组幅值图像重建出可以对黑质致密部清晰显示的setMag 图像［27］，并由一名具有8 年神经放射学经验的放射科医生标注相应的黑质致密部标签。在本文中，全量数据集被随机分为训练集（152 位，随机训练集与随机验证集比例为4∶1）和测试集（36 位）。

对本文实验结果分别采用戴斯相关系数（Dice similarity coefficient，Dsc）、准确率（Accuracy，Acc）、特异度（Specificity，Spe）、灵敏度（Sensitivity，Sen）以及ROC 曲线下面积（Area Under the Curve，AUC）作为评价标准，前4 个评价指标的计算方法如式（21）～式（24）所示，所有评价指标均采用平均值。

其中：X和Y分别表示真值样本和预测值样本；X∩Y表示取两者的交集；TTP表示被正确识别为黑质致密部的像素；TTN表示被正确识别为人脑背景的像素；FFP表示被错误识别为黑质致密部的像素；FFN表示被错误识别为人脑背景的像素。

3.2 实验环境与超参数配置

本文实验环境设置如表1 所示，实验超参数配置如表2 所示。

表1 实验环境设置Table 1 Experimental environment settings

表2 实验超参数配置Table 2 Experiment super parameters configuration

实验过程如下：对所有核磁共振图像切片的中心位置进行图像裁剪，获得采样大小为1×128×128 像素的图像块，使用重复拼接的方法将一幅图像扩展为3 通道，即大小为3×128×128 像素的图片块，不使用任何数据增强手段，采用极大极小归一化将像素值映射到［0，1］之间。在3.3.1 节实验中，多任务损失函数权重λ均设置为1。

3.3 结果分析

3.3.1 与其他方法的对比

表3 所示为华山医院帕金森数据集上的分割结果，最优结果加粗表示，对比方法包括U-Net［7］、R2UNet［9］、Attention U-Net［10］、HANet［17］。从表3 可以看出，本文分割方法在多个评价指标上均取得了最优的分割结果，其中，戴斯相关系数Dsc 达到0.869 1，准确率Acc 达到0.999 2。由于分割目标较小，在图片中的像素点占比较小，因此多个方法的准确率Acc 均在较高水平。本文方法所得结果的特异度最高，达到0.888 3，说明本文方法能够避免外围噪声的影响，防止识别出假阴样本。综合来看，本文方法的AUC 达到0.943 9，为最高水平。

表3 不同方法的人脑SNpc 分割性能对比Table 3 Comparison of brain SNpc segmentation performance of different methods

从表4 可以看出，在模型参数量方面，本文方法相比U-Net 方法并未增加太多参数，说明本文方法在模型参数量更小的情况下各项性能指标表现良好，有利于计算机辅助诊断系统的实际应用。

表4 模型参数量大小比较Table 4 Model parameter size comparison

3.3.2 消融实验

表5 所示为本文模型在华山医院帕金森数据集上的消融实验结果，包括“U-Net”分割结果、“U-Net+改进损失”分割结果、“U-Net+改进编码器”分割结果以及“U-Net+改进损失+改进编码器”分割结果。

表5 消融实验结果Table 5 Results of ablation experiment

从表5 可以看出，本文改进编码器和改进损失能够有效提升分割精度，其中，改进损失函数的提升效果最大，戴斯相关系数达到0.869 1，AUC 达到0.943 9，说明通过多任务学习，模型可以在一定程度上消除背景噪声的影响。单独改进编码器的结果提升不明显，但是在结合改进损失后达到了最优，这是因为训练集数量有限，基于Transformer 的编码器虽然提高了对高维语义特征的理解能力，但是同时增加了模型参数，容易导致模型过拟合，在训练中结合改进损失函数可以缓解模型过拟合，使模型更加关注目标区域的损失。综合来看，“U-Net+改进损失+改进编码器”的分割效果最好。

表6 所示为本文模型在华山医院帕金森数据集上的多任务损失函数权重λ超参数实验结果，目的是测试改进后的多任务损失函数权重λ对模型分割精度的影响，λ分别取0.1、0.2、0.5、0.8、1.0。实验结果表明，适当的辅助任务权重有利于提高分割精度，当λ取1.0 时在验证集上的分割精度更高，同时实验也表明，模型对辅助任务权重超参数的鲁棒性较好，并没有因为λ取值的变化导致结果大幅波动。

表6 超参数λ 敏感性测试结果Table 6 Hyperparametric λ sensitivity test results

3.3.3 可视化效果

图7 展示部分人脑黑质致密部的分割结果，相比于常用的医学影像分割方法，本文方法取得了更优的分割效果。在解决分割中出现不连续片段的问题方面，本文方法能够捕捉到边缘和整体结构的相关性，识别出疑似区域内的更多目标，降低假阴性，从而提升分割精度。此外，各个模型对人脑黑质致密部的边缘部分分割仍不够精确，原因是目标边缘与背景的类间差异较小，且这一部分的人脑组织结构更加复杂，分割难度较大。后续可通过扩充样本数据集、加入数据增强方法、改进预处理手段、融合边缘检测后处理等多种方式进行改进。

图7 SNpc 分割结果Fig.7 Segmentation results of SNpc

4 结束语

人脑黑质致密部的大小对帕金森疾病诊断具有一定的指导意义，针对人脑黑质致密部分割，本文提出一种基于改进U-Net 的分割方法。优化传统全卷积模块U-Net 的结构，在保留U-Net 对低维图像信息提取能力的基础上，融合基于Transformer 的编码器模块，用于处理高维语义特征。针对分割结果中出现的不连续片段，设计一种基于二维高斯核权重掩膜的损失函数，利用其对特定区域的信息增强能力使得模型在训练过程中更加关注黑质区域的损失变化。实验结果表明，该方法能够提高人脑黑质致密部的分割精度，有效缓解模型过拟合问题，同时降低假阴性，减少人脑致密部分割结果中出现的不连续片段。下一步将面向临床应用，通过融合分割所得的人脑致密部语义信息，结合人脑核磁共振图像及患者临床信息进行帕金森疾病分级诊断，设计计算机辅助诊断算法，最终形成可供医生临床使用的软件系统，为帕金森疾病的早期精准筛查及诊断提供便利。