基于MDM-ResNet的脑肿瘤分类方法

2022-05-18夏景明邢露萍谈玲宣大伟

南京信息工程大学学报 2022年2期

夏景明邢露萍谈玲宣大伟

0 引言

脑肿瘤类型有120多种,最常见的类型是脑膜瘤(占脑肿瘤患病率的35%)、胶质瘤(占脑肿瘤患病率的16%)和垂体瘤(占脑肿瘤患病率的14%)[1]．早期发现肿瘤有助于专家在脑肿瘤生长的初期阶段制定出准确的治疗计划．在临床诊断中,磁共振成像(Magnetic Resonance Imaging,MRI)因具有高分辨率、多参数成像等特点成为了最常用的脑肿瘤诊断技术[2]．医生对海量MRI图像进行手工诊断并发现早期脑肿瘤是一项非常耗时的工作,而计算机辅助诊断技术可以帮助解决这一难题．

近年来,深度学习因其高精度的性能在计算机视觉[3-5]、图像处理[6-7]、认证系统[8]和语音识别[9-10]等研究领域迅速发展．深度学习中的卷积神经网络(CNN)被认为是目前最成功的图像处理方法[11]．AlexNet[12]、VGG[13]等CNN的发展表明增加网络深度能够在一定程度上提高网络性能．但若只通过简单的网络层堆叠来增加深度就会导致网络出现梯度消失的情况[14]．本文通过研究多种残差网络(ResNet)[15],提出了一种基于MDM-ResNet网络的脑肿瘤多分类方法,具体贡献如下:

1)传统CNN结构中单通路的卷积层对局部上下文信息的接受度是有限的,然而利用不同大小的卷积核可以提取到更全面的特征信息．因此,本文提出了多尺寸卷积核模块.

2)考虑到将最大值池化和平均池化相结合可以使两者提取到的高维信息进行互补,本文提出了双通道池化层.

3)通过对多种ResNet中残差块的研究,本文提出了一种多深度融合残差块,该残差块将不同ResNet中“跳跃连接”跳过的卷积单元相结合,同时保留“跳跃连接”,在结合多种卷积方式的同时也增加了残差块的宽度.

将以上三种结构融合组成了本文的分类网络,即MDM-ResNet．

1 相关工作

脑肿瘤的分类已经得到了广泛的关注,在过去的几年中研究者们提出了多种分类方法．Cheng等[16]提出了一种基于DNN的方法对大脑正常和异常的CT图像进行分类,并采用灰度共生矩阵(GLCM)进行特征提取,该方法的平均分类准确性为83%;Abd-Ellah等[17]研究了一种两相多模型脑肿瘤自动诊断系统,其中分类阶段的模型由三部分组成,分别是预处理、CNN特征提取和纠错输出码-支持向量机(ECOC-SVM),该模型对脑肿瘤良恶性分类获得的最高平均准确性为99.55%．

但以上研究都只是对脑肿瘤进行二分类．2018年,Abiwinanda等[18]提出了一种CNN结构,该结构中每一个卷积层、最大值池化层和flatten层后面都跟有一个隐藏的全连接层,此方法对脑膜瘤、胶质瘤和垂体瘤的平均分类准确性为84.19%．2019年,Ghassemi等[19]提出了一种新的深度学习方法用于脑肿瘤的MRI图像分类,该方法首先在不同数据集上预训练一个DNN作为生成对抗网络(GAN)的鉴别器,以提取MRI图像的鲁棒性特征并学习MRI图像在其卷积层中的结构,然后用softmax层替代网络的全连接层,将整个深度网络训练成分类器,该方法对脑膜瘤、胶质瘤和垂体瘤的平均分类准确性为93.01%．

上述方法[16-19]都基于深度网络,然而,随着层数的增加网络通常会出现梯度消失的情况．2021年,Kumar等[1]提出了一种将ResNet50和平均池化结合的模型来克服深度网络中梯度消失和过拟合的问题,最终实验证明该方法对脑膜瘤、胶质瘤和垂体瘤的分类具有高准确性．

2 本文方法

ResNet由残差块搭建而成,这类模块使得网络不仅没有出现退化问题,还大大降低了错误率．在许多具有挑战性的图像识别任务中,ResNet已经表现出了优异的性能[20]．本文通过研究ResNet18、ResNet34和ResNet50等网络,提出了一种MDM-ResNet网络用于脑肿瘤分类,该网络由多尺寸卷积核模块、双通道池化层和多深度融合残差块组成,其结构如图1所示．

图1 MDM-ResNet结构Fig.1 Structure of the proposed MDM-ResNet

2.1 多尺寸卷积核模块

文献[21]中提出了一种Inception v1结构,该结构将CNN中常用的卷积(1×1,3×3,5×5)和池化操作(3×3)堆叠在一起,最后通过concat函数对四条路径的运算结果进行通道上的合并．其中5×5大小的卷积核能够覆盖大部分接受层的输入,且该结构在卷积的同时再进行一个池化操作,有利于减少网络空间大小,降低过度拟合．此结构不仅增加了网络的宽度,还增加了网络对尺度的适应性．受到Inception v1的启发,本文提出了一种类似于它的多尺寸卷积核模块,该模块的结构如图2所示．多尺寸卷积核模块与Inception v1的区别在于:不使用concat函数连接各个分支,而采用的是add函数．concat函数用于通道数的合并,即只是增加了描述图像本身的维度(通道数),每一维度下的特征信息并没有增加;而add函数的作用是没有增加描述图像本身特征的维度,但每一维度下的特征信息量在增加,这对最终图像的分类是有益的．

图2 多尺寸卷积核模块结构Fig.2 Structure of multi-size convolution kernel module

2.2 双通道池化层

ResNet只在残差块前后有池化层,分别是最大值池化和平均池化．最大值池化的目的是将感受野区域中激活的最大值作为最终的池化输出,它侧重于纹理信息,能够平衡卷积参数误差引起的估计均值的偏移[22]．平均池化的目的是将感受野区域中激活的平均值作为最终的池化输出,它更侧重于背景信息,可以减小由于邻域大小限制而导致估计方差增大带来的误差．因此本文把两种池化方式结合提出了一种双通道池化层结构:上一步输出的特征分两条路径同时经过最大值池化和平均池化,然后通过add函数将两条路径的输出结果合并起来共同进入下一步的运算．双通道池化层的结构如图3所示．

图3 双通道池化层结构Fig.3 Structure of dual-channel pooling layer

2.3 多深度融合残差块

ResNet50中的基础残差块可以使得网络在增加深度的同时,还能降低计算复杂度并解决梯度消失的问题．但它的缺点是网络在进行反向传播时并不能保证可以流经每一个残差块的weights,因此在整个训练过程中,只有极少数的残差块能够学习到有用的特征表达,而绝大多数的残差块起到的作用并不大[23]．卷积的目的是将输入图像与卷积核进行互相关运算,由此抽取图像的特征，而多层卷积在每次卷积过程中,感受到的信息及抽取的特征都不相同[24].因此,本文提出了多深度融合残差块,它的结构如图4所示．

图4 多深度融合残差块Fig.4 Multi-depth fusion residual block

图4a和图4b中,中间路径“1×1—3×3—1×1”和右边路径中的“3×3—3×3”卷积模式是ResNet50、ResNet34等在“跳跃连接”中跳过的卷积单元．一般来说,深度更深的ResNet效果稍好,其残差块形态类似卷积模式“1×3—3×3—1×1”;但ResNet18和ResNet34训练时间短,也能够取得良好的效果,其残差块形态类似卷积模式“3×3—3×3”．本文的多深度融合残差块将两类ResNet中“跳跃连接”跳过的卷积单元相结合,同时保留“跳跃连接”,并在“3×3—3×3”卷积模式后添加1*1卷积用于控制通道数量,最终联合输出后可获得不同维度的特征.另外，多深度融合残差块相对基础残差块而言增加了宽度,从而网络在进行反向传播时能够保证更多的weights参与到学习训练中．其中,3×3卷积层由多个网络层组成,包括3×3卷积层、激活函数、批量归一化和dropout层．

ResNet18在通道数量为 64、128、256、512 时各有2个残差块,而ResNet34和ResNet50在每种通道上分别有3、4、6、3个残差块．为降低网络复杂度,本文的分类网络设定每一种通道数对应2个多深度融合残差块,分别是图4中的多深度融合残差块(a)和多深度融合残差块(b),整个网络共计 8个残差块．

3 实验结果与分析

3.1 数据集与预处理

本文使用的脑肿瘤数据集来自https:∥figshare.com．该数据集由233名患者的脑肿瘤MRI图像组成,其中包含708张脑膜瘤切片、1 426张胶质瘤切片和930张垂体瘤切片,共计3 064张图像．

丰富的数据是有效搭建深度学习模型的关键[25]．本文使用数据增强方法来扩大数据集,其中最常用的方式是对图像添加噪声或应用几何变换,这有助于防止网络模型出现过度拟合．因此,本文对数据集中的图像进行了一系列扩展:首先将所有图片大小统一为224×224;然后将数据集按照8∶2的比例分成训练集和验证集;最后对训练集图像使用旋转、水平翻转、垂直翻转和添加椒盐噪声的数据增强方法,验证集不做数据增强．

3.2 评价指标

为了全面的评价MDM-ResNet的性能,本文将利用以下指标作为实验结果的评判标准,它们的具体描述如下:

1)准确性(Accuracy,A):表示样本中预测正确的数目与样本总数的比值,计算公式如下:

(1)

2)精度(Precision,P):表示正确预测为正的样本与全部预测为正的样本比值,计算公式如下:

(2)

3)召回率(Recall,R):又称查全率,表示正确预测为正的样本与所有正样本的比值,计算公式如下:

(3)

4)F1 Score(F1):该指标同时兼顾了分类模型的精度和召回率,可看作是模型精度和召回率的一种加权平均,它的计算公式如下:

(4)

上述公式中的TP、FP、TN、FN分别表示:预测为正、实际为正;预测为正、实际为负;预测为负、实际为负;预测为负、实际为正．

3.3 实验参数与训练策略

本文提出的MDM-ResNet网络模型由python3.6版本中的Keras库搭建而成,采用随机梯度下降法(SGD)训练网络,训练批次大小设置为20,训练轮次设置为100,初始学习率设置为0.002,动量(momentum)设置为0.9,权值衰减(weight decay)设置为0.000 2．在实验中本文采用5倍交叉验证方法来分析网络性能[26]．5倍交叉验证的训练集与验证集实施方案如图5所示．本文所有实验在NVIDIA GeForce RTX 2080 Ti GPU上进行．

图5 5倍交叉验证的训练集与验证集实施方案Fig.5 Implementation scheme of training set and validation set for five-fold cross validation

3.4 实验结果与分析

为了确定多尺寸卷积核模块对MDM-ResNet网络分类准确性的影响,本文分别在该网络的残差单元前面使用7×7卷积层和多尺寸卷积核模块进行了2次实验,实验在交叉验证方案a上展开,具体实验结果如表1所示．

表1 在残差单元前面使用不同卷积方式的准确性对比

表1显示,实验B的准确性高于实验A,这表明不同大小的卷积核能够提取到输入图像中不同大小的特征,而在进入残差块前拥有更丰富的信息有利于提高最终的分类准确性．

为了确定MDM-ResNet中改进池化层的最优方法,本文在把MDM-ResNet残差块前面的卷积方式确定为多尺寸卷积核模块的情况下进行了以下实验,该实验在交叉验证方案a上展开．具体实验结果如表2所示．

表2 不同位置改进池化层的准确性对比

表2显示,将残差块前面的最大值池化层变为双通道池化层比将残差块之后的平均池化层变为双通道池化层分类效果好,这表明平均池化相比最大值池化而言在脑肿瘤分类中扮演着更重要的角色,揭示了复杂医学图像中全局信息的不可替代性．而实验3将ResNet中的两个单一池化层都变为双通道池化层,平均分类准确性达到93.68%,这表明双通道池化层最大限度地利用了最大值池化和平均池化的优点,使两者提取到的高维特征信息相互补充,弥补了各自的缺点．

ResNet50[19]利用残差块解决了增加网络深度带来的梯度消失问题,在不增加额外参数的情况下,可以单纯通过增加网络深度来加快收敛速度和提高准确性．为了体现多深度融合残差块的效果,本文在把 ResNet50中7×7卷积层和单一池化层分别改进为多尺寸卷积核模块和双通道池化层的情况下与MDM-ResNet进行了实验对比,该实验在交叉验证方案a上展开,结果如表3所示．

表3 改进的ResNet50和MDM-ResNet的准确性对比

图6 MDM-ResNet网络分类准确性训练与验证的可视化过程Fig.6 Visualization process of training and validation of MDM-ResNet network classification accuracy on five validation schemes

根据表3可知,MDM-ResNet对于脑膜瘤、胶质瘤和垂体瘤的平均分类准确性为93.68%,相比于改进的ResNet50,准确性小幅度地提高了0.19个百分点．这表明本文提出的多深度融合残差块对网络最终的分类效果是有益的．多深度融合残差块将不同残差网络中残差块内的卷积单元结合,能够在卷积过程中抽取不同的信息和特征，且MDM-ResNet在不同的通道数量上只设有2个多深度融合残差块,这使得所有的残差模块都能够学习到有用的特征表达,从而有利于提高最终的准确性．

MDM-ResNet网络5次交叉验证中平均分类准确性训练和验证的可视化过程如图6所示．其中纵坐标为准确性,横坐标为训练轮次,蓝线和红线分别表示训练和验证过程．

由图6可以看到MDM-ResNet最初的准确性较低,通过100次的迭代训练,验证集上的准确性在40个批次后逐渐稳定．每次验证之间的准确性误差为0.092%左右,5次交叉验证的平均分类准确性为93.51%．

MDM-ResNet网络的预测分类效果可以由混淆矩阵展现,图7提供了5次验证下的混淆矩阵,其中行表示实际类别,列表示预测类别．

图7 5次验证中的混淆矩阵Fig.7 Confusion matrix of five validation schemes

从图7可知,由于数据集中胶质瘤的图片数量最多,5次验证下的所有分类情况中胶质瘤被正确分类的概率最高．同时可以发现,每次验证中胶质瘤被分类成垂体瘤的概率最小,这是因为胶质瘤属于恶性肿瘤,而垂体瘤生长在垂体附近,属于良性肿瘤．

为了更详细地展现MDM-ResNet的分类效果,本文在平均分类准确性最高的验证方案a上,取脑膜瘤、胶质瘤和垂体瘤在Accuracy、Precision、Recall和F1 Score 4项评价指标上的表现做详细分析,各项指标数据如表4所示．

表4 验证方案a上MDM-ResNet的评价指标值

由表4可知,MDM-ResNet对脑膜瘤、胶质瘤和垂体瘤的分类准确性分别为93.14%、93.14%和94.77%,平均分类准确性为93.68%．MDM-ResNet在Precision、Recall和F1 Score上的平均值也分别达到了89.36%、89.62%和89.45%．

本文将MDM-ResNet与其他文献中使用相同数据集的方法进行了对比,对比结果如表5所示．

表5 不同方法的平均分类准确性对比

Cheng等[27]将图像放大后的增强肿瘤区域作为感兴趣区域(ROI),然后再将ROI分割成更细致的环状区．他们使用强度直方图、GLCM和字袋模型(BoW)3种特征提取方式来分别对提出的模型进行验证,该方法使用环形区作为输入获得的最高平均分类准确性为91.28%．但是该方法是利用传统的机器学习方式对肿瘤进行分类,且通过手工方法提取特征,非常损耗时间．Ghassemi等[19]提出了一种新的多类脑肿瘤分类模型,该方法首先在不同数据集上预训练一个DNN作为GAN的鉴别器,然后用softmax层替代网络的全连接层,将整个网络训练成分类器,该方法获得了93.01%的平均分类准确性,不过由于GAN的限制,输入图像的大小必须是64×64．本文MDM-ResNet获得的平均分类准确性为93.51%.实验结果表明MDM-ResNet中的多尺寸卷积核模块和多深度融合残差块能够提取丰富的特征,且该网络有效地结合了最大值池化和平均池化的优点,使两者提取到的信息得以相互补充,因此本文网络在分类准确性上表现较好．

4 结语

针对脑膜瘤、胶质瘤和垂体瘤的分类问题,本文提出了一种MDM-ResNet网络,该网络由多尺寸卷积核模块、双通道池化层和多深度融合残差块组成．其中多尺寸卷积核模块由包含不同大小卷积核的卷积分支构成,从而能够提取到输入图像中丰富的特征信息;双通道池化层结合了最大值池化和平均池化的优点,使两者提取到的细节信息和背景信息可以相互补充;多深度融合残差块通过将不同ResNet中残差块内的卷积单元结合,在利用多种卷积模式提取信息的同时也增加了残差块的宽度,使得网络在进行反向传播时能够保证更多的weights参与到学习训练中．本文实验在Figshare数据集上展开,使用Accuracy、Precision、Recall和F1 Score作为网络性能的评价指标并采用5倍交叉验证方法来分析网络的分类效果,最终MDM-ResNet对脑膜瘤、胶质瘤和垂体瘤的平均分类准确性为93.51%．