淋巴结转移检测的八度卷积方法
2020-06-06王小华
魏 哲,王小华
(长沙理工大学电气与信息工程学院,长沙410114)
(*通信作者电子邮箱42624055@qq.com)
0 引言
乳腺癌是女性群体中高发的一种恶性肿瘤,据世界卫生组织公布的数据[1]显示,乳腺癌高居造成女性死亡病症的第二位。在实际的临床检测中,通过对苏木素-伊红(Hematoxylin and Eosin,H&E)染色的淋巴结切片组织进行病理学活检,找到转移癌,就可以确诊乳腺癌及其分期。然而,乳腺转移癌检测所需要筛查的淋巴结组织面积大,且受检测医师自身知识和经验等主观因素的影响,导致检测过程冗长费时,容易遗漏较小的转移,造成治疗的延误。
随着深度学习技术的快速发展,利用深度卷积神经网络搭建的模型在目标检测、图像分类等诸多领域内取得了超越人类水平的成绩。因此近年来,针对医学图像人工检测精度低耗时长的问题,结合深度学习的检测方法成为了医学影像计算机辅助诊断的研究热点。通过相关深度学习算法,卷积神经网络已经在糖尿病视网膜病变检测[2-4]、皮肤癌变诊断与分类[5-6]、阿尔茨海默症筛查[7-9]、肺癌预测与识别[10-11]和评估骨骼骨龄[12-13]等实际医疗案例中得到了成功的应用。在乳腺癌识别方面,Araújo等[14]用卷积神经网络(Convolutional Neural Network,CNN)搭建了识别准确率为77.8%的筛查模型;Bayramoglu等[15]在CNN网络结构的基础上,引入了放大倍数独立的方法,将准确率提升到了83%;Wei等[16]研究者结合GoogLeNet网络结构和迁移学习的方法,使模型对恶性肿瘤的识别率达到了97%。然而,上述检测模型对于转移癌图像特征的提取都是基于卷积的操作,这就导致在训练过程中,模型参数之间的计算量增大,训练时间增长,并且需要占用大量的内存空间,增加了模型对计算机硬件的依赖程度,从而提升了模型开发的成本。对此,本文基于经典的ResNet50 网络结构,采用八度卷积(Octave Convolution)方法[17]设计卷积层,通过完全替换ResNet50网络中卷积层为八度卷积层构成Octave网络,实现对图像中低频信息的删减,从而有效减少了模型对图像冗余信息的训练时间,节省了计算资源。为了说明Octave 网络的性能,本文在内存为13 GB,磁盘大小为4.9 GB,GPU 为Nvida Tesla P100 的 云 端 服 务 器 上,采 用PatchCamelyon(PCam)数据集对Octave网络和ResNet50网络进行了实验验证。残差网络是现代深度网络的基础骨架,ResNet50作为其中最为典型的结构,具有训练速度快、识别精度高、鲁棒性强等优势,在ImageNet,MNIST等分类识别任务的数据集中得到了广泛的使用,并取得了较高的识别精度和分类准确度,因而将ResNet50网络选为Octave网络的参照对象是合适的。通过实验,发现Octave网络对于转移癌图像的识别准确率比ResNet50网络下降了0.67%,但内存占用率减少了4.6%,磁盘空间节省了1.9%,训练效率提升了18.6%。实验结果表明,Octave网络具有与ResNet50相差不大的识别精度,且内存消耗小,训练时间快,可以有效降低对于计算机硬件的依赖,减少相关应用的开发成本,具有一定的实用价值。
1 方法
1.1 八度卷积(Octave Convolution)
Octave Convolution 方法的核心思想是通过对图像分频,减半图像中的低频信息,加速卷积运算。在深度神经网络结构中,一般的卷积运算可以表示为:
其中,W是k*k大小的卷积核,(p,q)为进行卷积运算的位置坐标,Nk定义了一个该坐标的局部邻域。而在Octave Convolution 中,卷积层中的特征图可以按通道分解成高频和低频两部分,低频部分保存了图像的大体信息,高频部分保留了图像的细节信息。图1 是一个完整的Octave Convolution过程。
图1 八度卷积运算过程Fig.1 Octave Convolution operation procedure
在图1 中,卷积层中输入和输出的特征张量及卷积核都被分成了高频[XHYHWH]和低频[XLYLWL]两个部分。其中,低频部分的通道的长w和高h被缩减为高频的一半。由于高频和低频通道的尺寸不一样,无法进行一般的卷积运算,所以为了实现高频和低频特征之间的有效通信,在WL→H过程中即低频向高频进行信息更新时,需要对低频分量上采样;同理,在WH→L过程中需要使用平均池化对高频分量下采样。最后输出的高频和低频特征将由YH=YH→H+YL→H和YL=YL→L+YH→L给出。其具体过程,可以用下面的公式表示:
其中:设置的采样步长为2,pool(x,k)表示平均池化操作,池化核大小为x,步长为k。
在图1 中所示的Octave Convolution 过程中,取参数αin,αout为输入和输出的低频通道占比并令αin=αout=α,卷积核大小为k*k,设输入输出的特征图维数相同,即cin=cout=c,那么直接进行卷积运算的计算量可以表示为:
Sumconv=(cout*w*h)*(cin*k*k)
考虑Octave Convolution的4个卷积过程,其计算量为:
所以,Octave总的计算量与直接卷积计算量之比rate为:
从上式中可以看出,rate的值在α∈[0,1]内单调递减,说明Octave卷积运算相较于直接卷积具有更少的计算量。
1.2 网络结构
本文基于残差网络结构搭建淋巴结转移检测的Octave网络。残差网络[18]的提出是为了解决网络在深层时的退化,即深度网络的梯度消失和过拟合的问题,其基本的组成单元如图2所示。
图2 残差单元结构Fig.2 Residual unit structure
设残差单元的输入为xl,输出为xl+1,则残差单元可表示为:
其中F(xl,Wl)是残差部分。从中可以看出,残差单元能够对上一层输入的数据通过非线性函数映射到下一层,也可以直接进行映射,这样的直接映射就相当于在通常的卷积运算基础上增加了恒等映射分支,从而使误差向着恒等映射的方向收敛,避免了网络在深层时的退化。
对于图2所示的残差单元,保持其他部分不变,用八度卷积方法替换卷积层中的卷积操作为Octave卷积,构建出Octave残差单元,将50个这样的单元端到端地连接在一起,构成50层的Octave残差网络,最后通过全连接层提取全局特征,输出预测的准确率,整个Octave模型的网络结构如图3所示。
图3 八度卷积检测模型Fig.3 Octave convolution detection model
2 实验
2.1 数据集及其处理
淋巴结转移检测模型所用数据来自于PatchCamelyon(PCam)数据集。PCam 实际上是Camelyon16数据集[19]的一个子集,包含400个由H&E染色的前哨淋巴结全幻灯片图像,这些图像是使用40 倍物镜在拉德堡德大学医学中心和乌得勒支大学医学中心两个不同的研究机构采集和数字化的。PCam 的训练集由270 个高分辨率全幻灯片图像组成,其中160 个为正常淋巴结切片图像,110 个在图像中含有乳腺转移癌;测试集由130 个包含了正常和癌变淋巴结组织的图像组成。为了便于模型的建立,有学者将PCam 中400个高分辨率图像分解成327 680 张大小为96×96 像素的彩色图像,并删除了其中的重复项。本文的模型就是基于这种改进后的PCam数据集而搭建的。
为了减少模型过拟合,增强网络的泛化能力,本文对数据集中的图像,采用了随机翻转和随机对比度的数据增强方式,如图4所示。
从图4 中,可以看出,对于病理扫描图像,基于图像的翻转、镜像和对比度的变化并不影响对转移癌细胞的识别,是合理的数据增强方式。通过这样的处理,模型可以将同一幅图像识别为不同的图像进行训练,从而改善了识别的精度。
在PCam 数据集中,含有转移癌变细胞的图像被标记为“1”;正常组织图像标记为“0”,如图5所示。
可以看出,利用PCam 数据集可以将临床上淋巴结中转移癌细胞的检测转换为阳性“1”和阴性“0”的图像二分类任务,使医学图像计算机辅助诊断模型的建立变得简单易行。
图4 数据增强Fig.4 Data augmentation
图5 数据标签示意图Fig.5 Schematic diagram of data labels
2.2 实验环境与流程
本文在最大内存为13 GB,磁盘大小为4.9 GB,GPU 为Nvida Tesla P100 的云端服务器上,采用Jupyter Notebook 搭建基于PyTorch 语言和fastai 库的虚拟测试环境。按照图3 所示的结构搭建Octave 网络,通过与ResNet50 网络在识别准确率,训练时间和内存占用等方面的对比分析,得到Octave网络性能的优势,实验的具体流程如图6所示。
图6 实验流程Fig.6 Flow chart of experiment
2.3 实验过程与结果分析
实验时,取Octave 网络模型中输入和输出的低频通道占比为αin=αout= 0.5,ResNet50 网络权重参数采用迁移学习的方法从ImageNet 数据集上获得。根据Smith[20]提出的单周期策略选择网络的学习率为0.01。设定训练总数为8个epoch,在每一个epoch 结束后,记录当前的识别精度、训练集损失、验证集损失和训练用时,可以得到表1。
通过表1 可以看出,在训练初期相邻的两次epoch 之间,Octave 网络与ResNet50 相比,在损失的下降和识别精度的提升上具有更大的波动幅度。根据Frankle 等[21]的研究,对深度神经网络参数剪枝后产生的稀疏架构在开始时就很难训练,由于Octave 网络对低频信息进行了减半,造成了初期较低的识别精度,但随着迭代次数的增加,损失下降和精度提升的幅度都较ResNet50 更快,这说明Octave 网络在之后的epoch 中训练的效果要比ResNet50 更好。通过实验,得到Octave 网络和ResNet50网络在转移癌识别任务中的性能参数如表2。
表1 训练记录Tab.1 Training records
表2 网络性能对比Tab.2 Network performance comparison
从表2中可以发现,在内存为13 GB,磁盘大小为4.9 GB的云端环境中,Octave 网络内存占用率为66.9%,磁盘使用率为7.3%;ResNet50网络内存占用率为71.5%,磁盘使用率为9.2%。相较而言,Octave网络识别准确率下降了0.69%,内存占用减少了4.6%,磁盘空间节约了1.9%,训练用时提升了18.6%。
为更好地比较Octave 网络与ResNet50 网络的识别精度,采用混淆矩阵(如图7)进行分析。
图7 混淆矩阵Fig.7 Confusion matrix
对于转移癌的识别任务而言,更加关注的是结果为阳性,即标签为“1”的识别情况。由图7 可以得到,Octave 模型未检测出阳性,即将“1”识别为“0”的概率为7.05%,错将阴性作为阳性误诊,即将“0”识别为“1”的概率为3.73%,ResNet50网络未检测出的概率为6.18%,误诊概率为2.85%。可以看出,两个网络在误诊和未检测出阳性结果之间的差距均小于1%。
在计算机辅助诊断中,业界普遍采用接收者操作特征(Receiver Operating Characteristic,ROC)曲线下的面积,即AUC(Area Under the Curve of ROC)的值来评价一个二分类模型的性能。在本文中,AUC的值越大,说明模型检测出癌变细胞图像的能力就越强。通过Python中scikit-learn库,可以得到表3。
从表3中可以看Octave网络与ResNet50之间AUC值的差距为0.45%。通过AUC值和混淆矩阵的对比分析,可以认为Octave网络在识别转移癌图像方面与ResNet50具有同等的性能水平。
表3 AUC值对比Tab.3 AUC value comparison
为了更加直观地验证两个模型的性能,本文从数据集中随机选取了3 张图片进行测试,并给出了模型在识别过程中判别最准确即确信度最大的3 张图片和预测误差最大的3 张图片如图8所示。
图8 Octave 网络测试Fig.8 Octave network testing
在图8 和图9 中,0 表示阴性,即图像中不含转移癌细胞,1表示阳性,即图像中存在转移癌细胞。
图9 ResNet50 网络测试Fig.9 ResNet50 network testing
结合上述两图,可以看出两个模型都可以对随机抽取的样本进行准确的预测,但Octave 网络对于含有大部分空白的图像,即低频信息多于高频的图像,存在较大的误判,这是由Octave 网络对低频信息减半的特性所导致。对比二者判别最为准确的三张图片,可以发现图片有一定的相似程度,这说明Octave 网络具有与ResNet50 相似的识别能力,都能够对图像中某些特定的特征进行准确的捕捉和识别。
2.4 实验总结
在内存为13 GB的云端服务器上,Octave网络对于转移癌的识别率为95.06%,内存占用8.7 GB,训练总用时37 min 42 s,与ResNet50相比,识别率下降了0.69%,内存占用减少了4.6%,训练用时提升了18.6%。在实际应用中,可以认为Octave网络具有与ResNet50相同水准的识别能力,且Octave网络内存占用少,训练速度快,在大数据的背景下,可以使网络对计算机硬件的需求降低,节省算力资源,减少开发成本。
3 结语
本文针对淋巴结乳腺转移癌检测任务,采用Octave Convolution方法替换残差网络中的卷积运算搭建了识别模型。模型具有与ResNet50同等水平的识别能力,且占用内存小,训练速度快,使模型在实际应用中,可以减少对高性能GPU的依赖,节省了开发的成本。然而,由于Octave模型对图像中低频信息进行了减半,从而导致模型对存在大量低频信息的图像的识别精度降低,造成较高可能性的误判。因此,下一步将针对于低频信息占主导的图像,改进Octave网络的结构,进一步提升网络对图像的普适性,使网络更加具有市场竞争力。