APP下载

基于改进ResNet 的阿尔兹海默症分类网络

2023-04-19吴晓红卿粼波何小海

智能计算机与应用 2023年3期
关键词:阿尔兹海默症注意力

王 斌, 吴晓红, 辜 蕊, 卿粼波, 何小海

(1 四川大学 电子信息学院, 成都 610065; 2 西南交通大学附属医院&成都市第三人民医院 神经内科, 成都 610031)

0 引 言

阿尔兹海默症(Alzheimer Disease, AD)是一种常见的中枢神经系统退行性疾病[1],特点是认知和记忆能力呈进行性恶化,严重影响患者的日常生活。世界卫生组织(WHO)预计2030 年全球将有8 200万痴呆症患者,2050 年将达到1.52 亿。 国内目前AD 患者已超过600 万人,预计2050 年将超过2 000万。 这将给患者、家庭、社会带来沉重的负担[2]。其中,随着年龄的增长,患病风险在不断地增大[3-4],轻度认知障碍(Mild Cognitive Impairment,MCI)是AD 的前驱,也是正常人(Control Normal,CN)到阿尔兹海默症患者的过渡状态[5]。 大量的临床研究表明,如果对MCI 患者进行药物干预和护理,可以延缓疾病的发展速度,稳定患者病情[6]。然而迄今为止,临床诊断中没有一种标准的诊断方法,这种方式耗费大量的人力、物力,延长患者的确诊时间,进一步加剧了医疗资源紧缺的问题。 因此,社会迫切需要研究人员以AD 诊断为切入点,以快速筛查、精准评估为目的,致力于开发优秀的算法框架来对疾病数据进行计算机辅助诊断,提高医生的诊断效率,减轻社会负担。

随着医学影像技术的不断发展和完善,各种影像技术被广泛地应用于脑部疾病的诊断和研究,例如正电子断层扫描(Positron Emission Computed Tomography, PET )、 磁 共 振 成 像 ( Magnetic Resonance Imaging, MRI)、弥散张量成像(Diffusion Tensor Image, DTI)等医学影像技术[7]。 其中,MRI因能够精确直观地显示脑部子结构、萎缩程度以及异常病变,图像分辨率高,成本较低而得到广泛使用[8]。 医学影像数据大都维度较高,数据量大且复杂,利用人工方式辨别MRI 图像中的AD、MCI、CN病理学特征需要很强的专业知识和经验,如图1 所示。 卷积神经网络(Convolutional Neural Network,CNN)因其有很强的自动特征提取能力,可以从复杂数据中挖掘出与疾病相关的大量细节特征和病变位置,从而被研究人员广泛关注。

1998 年,Lecun 学者[9]提出LeNet 网络并在论述其网络结构时首次使用了卷积一词,卷积神经网络也因此得名。 目前,针对阿尔兹海默症的计算机辅助诊断研究主要以深度卷积神经网络为主。 经典的CNN 模型一般由输入层、卷积层、池化层、全连接层以及输出层构成,其提取的是二维图像的静态空间特征。 邓爽等学者[10]提出基于MRI 切片的VGG弱监督细粒度AD 分类模型。 曾安等学者[11]提出基于CNN 和集成学习的多切片集成分类模型用于早期阿尔兹海默症诊断。 Xing 等学者[12]通过将MRI 动态压缩成2D 的影像在准确度上获得了一定的提升。 但MRI 医学影像为三维结构,基于二维MRI 切片的研究忽略了切片之间的空间相关性,因此随着计算机计算能力的提升,采用三维CNN 模型研究完整的MRI 三维影像成了主流。 该方式相较于切片的方式具有更加丰富的像素信息,提取的全脑特征将比二维切片更丰富。 Maqsood 等学者[13]基于AlexNet 构建了三维卷积神经网络对阿尔兹海默症进行了AD/CN 二分类。 Kruthika 等学者[14]通过构建图像内容检索与胶囊网络组合提出了一种3D 自编码的卷积神经网络。

综上所述,基于二维CNN 模型处理MRI 切片数据,不能充分利用影像中所包含的全脑信息,但是基于三维CNN 的方法存在计算量大、准确率不高的问题。 因此本文以ResNet 为基础减少计算量,设计了基于MRI 影像的阿尔兹海默症分类网络。 实验结果表明,本文提出的模型具有良好的分类识别率。

1 数据集构建

1.1 ADNI 数据集

本文使用的数据来自阿尔兹海默症神经成像计划 (Alzheimer ′ s Disease Neuroimaging Initiative,ADNI)[15]。 ADNI 数据库由美国国立卫生研究院衰老研究所(National Institute on Aging, NIA)、生物医学成像与生物工程研究所(National Institute of Biomedical Imaging and Bioengineering, NIBIB) 等组织于2004 年联合建立。 阿尔兹海默症神经成像计划(http:/ /adni.loni.usc.edu/)是一项纵向多中心研究,分为ADNI-1、ADNI-GO、ADNI-2 和ADNI-3四个推进阶段,旨在开发临床、成像、遗传和生化生物标志物,用于阿尔茨海默病(AD) 的早期检测和跟踪。 本文数据是选取ADNI1、ADNI2 和ADNI GO计划的场强为1.5T,T1 加权的MRI 影像,总体数量为8 600张。 数据集中AD、MCI、CN 的图片见图1。

1.2 数据集划分

采用多数研究者的数据划分方法处理下载的数据,随机打乱样本后划分训练集和测试集,样本分布情况见表1。

表1 Non-standard Dataset 数据集分布情况Tab. 1 The distribution of Non-standard Dataset

表1 中,Sub表示样本人数,Age表示样本平均年龄与标准差;MMSE,CDR,CDR - SOB分别表示样本所对应量表平均得分及标准差。

但是该数据集是存在数据泄露的。 通过随机打乱样本后划分训练集和测试集,同一个人不同时期的脑部影像数据同时出现在训练集和测试集中,从而导致实验中分类准确率虚高,实践中准确率骤降的数据泄露情况。 另外,在数据划分前进行数据增强或预处理,训练集和测试集中找到同一原始图像生成的图像,也会导致数据泄露。

在深度学习时代,数据与算法同样重要,深度学习模型需要大量的数据进行训练。 为了更好地衡量分类网络的真实预测能力,保证分类网络在实际应用中具有较好的泛化性能,本文制定新的数据集划分策略,并建立对应的数据集。 划分策略主要按照个体ID 进行划分,避免同一个人不同时期的数据同时出现在训练集和测试集中,并分别划分为AD,MCI 和CN 三类,每一类包含均衡的训练集和测试集。

ADNI 数据集中对每个病人的各项测试指标进行了收集,测试指标高达100 多项,包括年龄、病症、检测日期、量表得分等相关数据,而痴呆也分为老年痴呆、血管性痴呆、额颞叶痴呆、路易体痴呆以及帕金森痴呆等5 种,本文主要研究阿尔兹海默症、即老年痴呆,因此在划分数据集时需引入其他参数来尽可能排除掉其他类型的痴呆以及确保数据集能展示出阿尔兹海默症普遍的患病过程与特点。 在临床医生的指导下,选取样本的以下3 种统计参数来做数据集的均衡处理:

(1) 性别:在AD 患者中,相比于男性患者,女性患者平均寿命更长,患病率更低,并且MCI 向AD的过渡期更长,变化过程更缓慢。 研究表明这是因为性染色体在调节阿尔兹海默症相关方面有一定作用[16]。 因此在划分数据时,应尽量使数据集中男女比例一致。

(2)年龄:年龄是阿尔兹海默症最大风险因素之一。 《World Alzheimer Report 2021 Journey through the diagnosis of dementia》[17]指出,超过80%的阿尔兹海默症患者都在65 岁及以上。 随着年龄的增长,患阿尔兹海默症的风险急剧增加。 而影像学中的脑部结构会随着年龄的增长而不断变化,出现脑部萎缩现象不一定就能证明患有阿尔兹海默症。 因此不能仅以脑萎缩程度来划分数据集,年龄分布也应是数据集划分的重要依据。

(3) 认知测试量表:认知测试量表是由临床神经科医生用来评估患者一般认知、记忆、语言表达、逻辑判断、视觉等能力的神经心理学测试。 通过询问知情者和患者本人,对每个项目进行评分,可以准确地检查出被试者的整体认知能力,是诊断AD 的一个强有力的指标。 影像学是能够从脑部结构性和功能性变化的角度对脑部进行评估,并未能从患者认知角度评估。 因此划分数据集是不能只从影像学角度划分,也应考虑到认知测试量表结果。 本文参考的量表如下:

①MMSE: 简易精神状态评价量表(Minimental State Examination,MMSE),该量表广泛用于痴呆症的筛查,测试内容包括时间定向力、地点定向力、即刻记忆、注意力、计算力、延迟记忆、语言、视空间。 评价标准为:得分在[0, 9]区间为重度认知障碍;[10, 20]区间为中度认知功能障碍;[21, 26]区间为轻度认知障碍;[27, 30]区间为正常。

②CDR:临床痴呆分级量表(Clinical Dementia Rating,CDR),该量表测试内容包括记忆、定向、判断和解决问题、工作及社交能力、家庭生活和爱好、独立生活能力。 评价标准为:0 分是正常,0.5 分是可疑,1、2 和3 分则代表了轻度、中度和重度痴呆。

③CDR - SOB: 临床痴呆评分总和(Clinical Dementia Rating Scale-sum of Boxes,CDR - SOB),测试内容包括行为紊乱、语言评估、记忆、定向、判断和解决问题、工作及社交能力、家庭生活和爱好、独立生活能力。 评分为0 评定为正常;评分介于0.5~4.0 评定为可疑认知障碍;评分在4.5 以上评定为痴呆。

依据上述划分规则,构建一个无泄露的标准化数据集Standard-Dataset,数据集统计分布情况见表2。表2 中,M表示男性数量,F表示女性数量。

表2 Standard Dataset 数据集分布情况Tab. 2 The distribution of Standard Dataset

2 基于改进ResNet 的阿尔兹海默症分类网络设计

针对阿尔兹海默症确诊过程中出现的脑部结构萎缩、异常蛋白累积与神经纤维缠结等特点[18],以ResNet 为基础网络,结合注意力机制的特点,搭建了基于改进ResNet 的阿尔兹海默症分类网络。

2.1 ResNet 网络

ResNet 由He 等学者[19]提出,其主要思想是在网络中增加直连通道以允许保留之前网络层的一定比例输出,即引入残差模块如图2 所示,从而在一定程度上解决了在网络越来越深的过程中梯度消失和梯度爆炸的问题,同时降低了参数,效果突出。 残差模块主要由卷积层和短连接组成,其计算公式为:

图2 残差模块结构图Fig. 2 Residual module structure diagram

其中,Yn,Xn分别表示第n层的输出和输入;Wn表示卷积模块的权重参数;F(Xn,Wn) 表示在过程中网络模型所学习到的参数。

2.2 注意力机制

注意力机制主要分为两大类[20]:软注意力机制(soft attention)与硬注意力机制(hard attention)。 其中,软注意力机制通过自适应加权的方式为输入对象的每个特征赋予不同的权重,选择性忽略不重要的信息,提取出重要的信息并且赋予较大的权重。硬注意力机制对特征权重的分配只有0 和1 两种,表明硬注意力机制只会关注重要信息,其他信息完全舍弃,从而有可能导致对模型有用的细微信息的丢失。 目前,深度学习大多采用软注意力机制。

在软注意力机制中,通道注意力机制不仅仅在空间上关注信息,并且更注重各个通道之间的权重关系,对各个通道相互间的依赖程度进行调整,同时抑制一些作用较小的特征,帮助网络提取更精确的特征。 比如SENet 通道注意力机制[21],三维结构如图3 所示。

图3 SE 通道注意力模块示意图Fig. 3 SE channel attention module schematic

为了获得通道上的注意力,长度、宽度、高度和通道数为L ×W ×H ×C特征图uc输入之后,先通过基于特征图的长宽高进行全局平均池化,使空间特征降维到1×1×1×C的特征图谱,并获得全局的感受野。 可由如下公式进行描述:

然后,使用两个全连接层和非线性激活函数ReLU来学习各个通道之间的非线性关系,对此可表示为:

最后,经过Sigmoid激活函数获得归一化权重,再通过乘法逐通道加权到原始特征图的每一个通道上,完成通道注意力对原始特征的重新标定。 此处需用到的数学公式为:

2.3 基于改进ResNet 的阿尔兹海默症分类网络

本文设计的网络主要由输入模块、特征提取模块、通道注意力模块和输出模块构成,网络结构如图4 所示。 其中,输入模块根据MRI 医学影像分辨率不高,需关注的细节特征更多的特点,采用3×3×3卷积来提取浅层特征,避免丢失有效的信息。 特征提取模块由连续4 层的通道分离残差子模块组成,通道分离残差模块主要是进行特征提取,充分组合低维和高维特征并减少重复的梯度信息,连续4 层的通道分离残差模块(R1、R2、R3、R4) 区别在于通道数是依次减半的,采用此结构的原因有2 点:首先,MRI 影像中浅层特征在阿尔兹海默症的临床研究中有着重要意义,而为了提取充分的浅层特征,就需要在特征提取初期多设置卷积核来提取。 其次,高维特征在提取过程中,设置较小的通道数可以起到降维和正则化的作用,从而避免出现过拟合现象。通道注意力模块主要是通过分配通道之间的权重,调整通道之间的依赖程度,能够让模型关注到信息量最大的通道特征,同时抑制一些不重要的特征,从而帮助网络提取到更加精确的特征。 输出模块先采用全连接层进行特征降维,再利用Softmax得到预测分类的概率,选取最大的概率作为结果输出。

图4 网络结构图Fig. 4 Structure topology of the network

分析可知,通道分离残差模块是针对在阿尔兹海默症的MRI 影像的研究中,既要关注非线性的高维特征,也需要得到诸如海马体大小、灰质白质分布等低维特征的特点而设计的,并保留了残差模块有效防止梯度爆炸、且参数少的特点。 结构如图5 所示。

图5 通道分离残差模块结构图Fig. 5 Structure diagram of channel separation residual module

将输入的特征图谱x,经过分离层后分为x1和x2两条特征提取路径,推得的数学公式具体如下:

其中,c为通道数。

由式(5)可知,x1通过卷积层、归一化和激活函数,提取抽象的非线性高级特征,而x2不做任何操作,保留浅层特征。 接下来,将2 条路径所提取的特征按公式(6)进行通道融合得到输出Y:

其中,f表示对x1和x2两条路径的特征融合操作;F表示对x1进行卷积、归一化和激活函数操作;W表示权重参数。

该模块通过分离通道,使梯度流在不同网络路径传播,有效防止过多的重复梯度信息,随后将2 部分所提取的特征融合,充分组合低维和高维特征,从而大大提升了网络的学习能力,保持网络的稳定性,并明显减少了计算成本。

激活函数选用的是2019 年提出的Mish激活函数[22],其表达式为:

Mish函数曲线如图6 所示。 从图6 可以看出,Mish函数负值的时候并不是完全截断,而是允许比较小的负梯度流入,从而保证信息流动,避免了硬边界带来的信息缺失。 激活函数无边界的特点,避免了梯度饱和这一问题。Mish函数在曲线上处处平滑,能够做到更好的特征选择,让更具有代表性的特征进入网络中,达到更高的准确性和更好的泛化性。

图6 Mish 函数曲线图Fig. 6 Mish function curve

3 实验结果及分析

3.1 实验环境

本文实验的硬件环境是24 GB NVIDIA 3090Ti显卡,Ubuntu 18.04 系统,实验代码基于Python、Pytorch 和Cuda 框架实现。 模型训练选用Adam优化器更新模型参数,通过正弦振荡方式调节学习率,初始学习率为0.01,选取振荡周期为20,衰减最小值为0.000 01。

3.2 评价指标

本 文 将 采 取 准 确 率 (Accuracy)、 敏 感 性(Sensitivity)、特异性(Specificity) 来作为分类任务的评价指标。 对此展开分述如下。

(1)准确率(Acc)。 表示预测正确的样本数量与总样本量的比值。 数学定义公式见如下:

(2)敏感度(Sen)。 表示分类器识别正实例占所有正实例的比值。 数学定义公式见如下:

(3)特异性(Spe)。 表示分类器识别预测为负实例占所有负实例的比值。 数学定义公式见如下:

式(8)~式(10)中,TP、TN、FP和FN分别表示真阳性、真阴性、假阳性和假阴性。

3.3 实验流程

将从ANDI 上下载的数据经过配准与空间标准化操作使获取的MRI 影像投射到一个统一标准的空间中,再通过平滑处理降低噪声干扰,另外通过数据增强来保证足量的图像数据来训练深度学习网络,最后将按照给定的方式划分的数据送入对应的网络,输出分类结果。

3.4 实验结果与分析

本文主要针对二分类AD/CN、MCI/CN 和三分类AD/MCI/CN 开展研究,可为临床医生诊断和研究提供参考。 首先,在Non-standard Dataset 数据集上进行实验,并与前沿算法做比较,验证本文所提出模型的有效性。 前沿网络分类准确率对比见表3。

表3 前沿网络分类准确率对比Tab. 3 Comparison of classification accuracy of frontier networks%

由表3 可以看出,本文的方法在三分类AD/MCI/CN 准确率达到了83.54 个百分点,二分类AD/CN 和MCI/CN 准确率为95.27 个百分点和85.07 个百分点,指标上均高于前沿的算法。 其中,Puente 等学者[23]使用MRI 影像切片作为输入,采用2D-CNN进行特征提取,同时结合了病例的年龄和性别信息进行辅助分类。 Aderghal 等学者[24]对MRI 影像的海马体区域进行切割,采用迁移学习的方法进行分类。 Zhang 等学者[25]对MRI 影像进行分割,提取感兴趣区域的体积信息作为特征,输入分类器进行分类。 Kang 等学者[26]提出了基于二维CNN 的集成学习体系结构,采用多片集成学习获取空间特征,多模型集成学习降低了预测错误率。 对比文件的数据集情况见表4。 这些前沿算法采用的数据集来源和病症比例不尽相同,并且数据泄露的程度也不尽相同,从而导致结果也有所不同。 因此只能就对比方法进行定性分析,粗略地评判网络的有效性;同时也说明构建标准统一且划分科学的数据集的必要性。 总体来说,本文所提出的方法在阿尔兹海默症的分类任务上处于领先水平。

表4 对比方法所用的数据集Tab. 4 The data set used to compare files

其次,在Standard-Dataset 数据集下,对开源算法和主流网络进行复现,验证本文模型的鲁棒性。不同网络分类准确率对比见表5。

表5 不同网络分类准确率对比Tab. 5 Comparison of classification accuracy of different networks%

由表5 可以看出,三维CNN 网络的准确度高于二维CNN 网络的准确度,证明了针对阿尔兹海默症的MRI 影像研究,3D 体素数据比2D 切片数据具有更多的信息,更具有研究价值。 其中,2D 切片数据是选用MRI 影像信息较多的前后5 张切片图像(横断面维度60、冠状面维度60、矢状面维度50)拼接而成。

Liu 等学者[27]提出了由3D 卷积、实例正则化、ReLU激活函数和最大池化组成的特征提取模块,并堆叠4 层该模块进行特征提取,随后利用全连接层进行分类输出,与本文的结构类似。 通过对分类任务结果进行对比可以得出,本文提出的网络模型分类准确率全面高于基础网络,略高于Liu 等学者[27]的方法,表明本文对基础网络的改进是有利于开展阿尔兹海默症分类的。

在AD/CN 和MCI/CN 两个二分类任务上对比不同分类网络的敏感性和特异性结果,见表6。

表6 不同网络敏感性与特异性结果对比Tab. 6 Comparison of sensitivity and specificity of different networks%

通过表6 可以看出,本文提出的模型在AD 敏感性、特异性和MCI 敏感性、特异性上都有较好的表现,能够有效降低疾病的误诊率与漏诊率;但是MCI 的特异性普遍偏低,这与MCI 的病理特征相较AD 与CN 病理特征不明显有关。

表5 和表6 的结果充分证明本文分类模型的鲁棒性。 从表5 与表3 的实验结果可得:相比Standard-Dataset 数据集上的实验结果,本文的方法在Non-standard Dataset 数据集上各分类任务准确率都有大幅提升。 其中,三分类和MCI/CN 分类准确率提高20 个百分点,AD/CN 分类准确率提高了近10 个百分点,仿真结果说明数据泄露在算法实际应用中的不良影响。

另外,本文针对通道注意力模块的嵌入的位置也进行了消融和对比实验,来验证通道注意模块的有效性以及确定最佳嵌入位置。 以AD/CN 分类任务为例开展实验,数据集选用Standard-Dataset,实验结果见表7。

表7 通道注意力模块嵌入位置结果对比Tab. 7 Comparison of embedding position results of channel attention module %

根据结果可以看出,对比实验1 和实验2 ~6 可得,通道注意力模块的引入对于提升模型的分类准确率是有效的,对比实验2 ~5 可以得出,通道注意力模块引入到通道分离残差模块R4之后效果最好。R4模块是特征提取的最后一个模块,提取到的特征更能体现AD/CN 分类任务的区别,配合通道注意力模块,调整通道之间的依赖关系,让网络更加关注重要特征,提取到更加精确的分类特征,从而能进一步提升分类的准确率。 另外,实验表明通道注意力模块分别加入到R2和R4之后都能起到不错的效果,因此设计了实验6,在R2和R4之后都加入通道注意力模块,各项指标相较于实验5 没有较大的提升,并还引入了更多数据运算量,耗费内存。 根据奥卡姆剃刀原理,如无必要,勿增实体。 根据实验结果和理论证明,在模块R4之后嵌入通道注意力模块能够达到更好的效果。

4 结束语

本文主要根据阿尔兹海默症各阶段的MRI 影像特点设计了基于改进ResNet 的阿尔兹海默症的分类网络。 首先,针对目前研究中用到的数据集中构建出现的问题,在临床医生的指导下制定了数据集的合理划分策略;然后,将处理后的数据送入通道分离残差模块提取网络的浅层特征和深层特征,并防止重复的梯度信息;将提取后的特征送入通道注意力模块调整通道之间的权重,得到更加精确的分类特征;最后,将特征矩阵送入线性分类层输出分类结果,实验结果已经达到同领域的领先水平,并且也通过设置对比实验证明了科学划分数据集的重要性。 但是,针对目前的研究中仅输入MRI 影像数据较难准确区分出MCI 的问题,后续将模仿医生的就诊过程对量表、影像数据、基因数据等进行基于多模态数据的阿尔兹海默症分类技术研究。

猜你喜欢

阿尔兹海默症注意力
阿尔兹海默症发病机制及相关治疗药物的研究进展
让注意力“飞”回来
预见性护理在阿尔兹海默症中的应用价值和对生活质量的影响分析
机器狗会成为阿尔兹海默症患者的福音吗?
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things