基于深度学习网络PSP?NET的前列腺MR图像的分割
2019-06-15范嵩冯前进
范嵩 冯前进
摘 要: 为了提高前列腺磁共振图像分割的准确性,文中提出一种新的基于金字塔场景解析网络(PSP?NET)的深度卷积神经网络分割方法。先将三维前列腺磁共振图像经相应的转换工具包得到二维图像切片,然后将二维图像的切片输入基于PSP?NET神经网络进行训练。为了训练网络,从临床科室抽取50个病人的三维前列腺磁共振图像,共5 000张图像切片,其中4 000张切片用来训练,1 000张切片用来测试。实验结果表明,对其中1 000个对象的识别,分割精度达到91.3%,此分割算法与已经提出的算法相比,图像分割精度明显提高,分割用时更少,能够更好地应用于临床诊断。
关键词: 磁共振成像; 前列腺图像分割; 网络训练; 深度学习; PSP?NET; 临床诊断
中图分类号: TN915?34; TP302 文献标识码: A 文章编号: 1004?373X(2019)12?0148?04
Abstract: A new deep convolutional neural network segmentation method based on the pyramid scene parsing network (PSP?NET) is proposed to improve the segmentation accuracy of prostate magnetic resonance (MR) images. The 2D image slices are obtained from the 3D prostate magnetic resonance images by using the corresponding conversion toolkit, and then input into the PSP?NET based neural network for training. The 3D prostate MR images of 50 patients are extracted from the clinical department, so as to train the network. 5 000 image slices are extracted, in which 4 000 slices are used for training, and 1 000 slices for testing. The experimental results show that the segmentation accuracy of the new method can reach 91.3% for identification of 1 000 image slices; in comparison with the already proposed algorithms, the segmentation algorithm has a significantly?improved image segmentation accuracy, and less segmentation time consumption, which can be better applied to clinical diagnosis.
Keywords: magnetic resonance imaging; prostate image segmentation; network training; deep learning; PSP?NET; clinical diagnosis
0 引 言
前列腺疾病是中老年男性的主要疾病之一,且是剥夺男性生命的疾病之一。磁共振成像是诊断和治疗前列腺疾病最有效的方式。在临床诊断上,比较常见的还是使用手动分割前列腺磁共振图像,由此消耗的时间较长。随着病人的增多,手動分割已无法满足临床的需要。因此,准确地自动分割前列腺对疾病的治疗十分重要。
针对上述问题,研究人员提出众多前列腺MR图像的分割方法,例如:基于多图谱[1]的分割方法主要是依赖手工分割精度高的优点,将图像分割直接转变为图像配准;2014年,Mahapatra等人提出的基于上下文特征和图像的自动分割算法,主要利用超像素以及上下文特征再结合随机森林得到最终的分割[2];2017年,李雪莉等人提出了椭球先验约束的分割算法,分割效果进一步提升[3]。上述这些方法虽在分割精度上有一定提升,但均存在一个较大的缺点就是过分依赖手动分割。
近年来,FCN等[4]深度学习网络逐渐应用到医学图像的分割中,如已发表的基于三维卷积神经网络分割椎体MRI图像[5]、基于多尺度特征融合的深度三维卷积编码网络分割[6]、反卷积网络法[7]分割前列腺MR图像等。受到这些思想的启发,本文提出了一种基于深度学习网络PSP?NET(Pyramid Scene Parsing Network)的前列腺MR图像自动分割方法,该网络模型中,利用残差结构[8](Residual Networks,Res?Net)构造有效的先验特征提取网络并制定优化策略。用病人的前列腺MR图像集来训练网络模型,并测试最终获得一种优越的前列腺磁共振图像的自动分割方法。此分割方法跟已经提出的分割方法相比,分割精度明显提高,分割用时更少,更加适用于临床的应用。
1 深度学习模型与方法
1.1 构造空洞卷积残差结构模型
残差网络构造模块如图1所示,设输入为[x],激活函数采用ReLu,通过拟合得到残差函数[F(x)],且与输入特征图[x]叠加,便可得到输出特征图[y],[y]可以表示为:
在网络设计中,每个残差模块的内部有3个卷积层,整个神经网络中包含7个残差学习块,共有21个卷积层。
图1 残差网络构造模块
图2 空洞卷积原理示意
在做空洞卷积时,引入一个参数[s],称为扩张率(Dilation Rate),即像素之间空洞。卷积神经网络到最后,图像是一个只保留了微弱空间信息的特征图,小的细节因为网络结构中各种池化、采样操作而被损失掉,因此很可能造成严重的后果。但若不做池化操作,则深度网络将没有任何意义。所以,采用空洞卷积使得在不增加卷积核参数量的同时,又能够使感受视野增大。空洞卷积的基本原理是在卷积核中间加入0元素,0元素不会随着学习而做出调整。
1.2 PSP?NET网络结构
本文分割前列腺MR图像所使用的方法是深度神经网络PSP?NET模型,整体算法流程如图3所示。
图3 算法流程图
1.3 全局特征提取
该网络主要有两大主体部分,第一部分是全局特征的提取,如图3所示。训练图片输入网络,卷积核的大小是7×7,卷积的步长为2(stride=2)。这一层做的是same卷积,输出的图像尺寸大小不变,通道数变为64维。经过上面卷积层输出的图片进行一次下采样,用3×3的卷积核做局部的最大池化(max?pool),池化的步长也是2。通过池化的作用,提取到了相对前面比较抽象的图像特征。该层输出后,图片的尺寸就缩小到了上面的[12]。经过same卷积和池化,这里的通道数(维数)变成了64维。经过池化输出的图片,进入到残差结构,如图3中带有虚线框的结构所示。左右两个残差结构均是1×1,3×3,1×1的卷积核,做的均是same卷积。经过这3个卷积,此时的通道数增加到256维,但特征图的尺寸并未发生变化(这部分重复了3次)。接下来用空洞卷积([s]=2)代替池化层。经过这一层空洞卷积,输出特征图的尺寸再次减半,变成刚开始输入之前的[14]。接着特征图将再次进入到残差结构,又是一个3层的卷积核。卷积核大小分别如图3右侧第二个残差结构(右边虚线框)所示。连续做4次,通道数在相应的改变。再次用空洞卷积代替池化,这一层输出的特征图尺寸再次减半。最终,图3左边的网络结构就完成了。
表1展示了输入图像在每一步操作之后,尺寸以及通道数对应的变化。其中,Res代表残差结构。输入图像为512×512×1,尺寸为512×512,通道数是1,输出的特征图为64×64×512,尺寸为64×64,通道数变为512。这样,PPM模型之前的网络就完成了,从而得到了一个只有原始图像[18]的特征图(Feature Map),称为全局特征图。
表1 各阶段图像尺寸大小和通道数
1.4 金字塔池化模型
为进一步减少不同子区域之间上下文的丢失,使用分层的全局先验模型来提取不同尺度的信息,称之为金字塔池化模型(PPM)。
金字塔池化模型結构(PPM)如图4所示,该池化模型融合了4种不同尺度的特征:
1) 首先输出的是最粗糙的全局平均池化,即粗略的特征浓缩与提取,用来生成单个的输出。池化的感受野是整个特征图,输出特征图尺寸是1×1,见图4中最顶层。
2) 第二层再继续池化,输出2×2的特征图。
3) 同理,第3层和第4层如图4所示,输出特征图的尺寸分别是3×3和6×6的大小。
图4 金字塔池化模型结构(PPM)
上面4层池化以后,特征图的通道数跟池化之前是不同的。原始特征图(Feature Map)的通道数是512,池化后的特征图增加到2 048。为了保持全局特征的权重,文中在金字塔每个等级后使用1×1卷积核做卷积。若金字塔等级大小为N,则将卷积后图像的通道数减少到卷积前的[1N]。这里的N为4,因此通道数就从2 048减小到512。通过上采样(双线性插值)的方法获得与池化前相同大小尺寸的特征图(大小为64×64×512)。然后将这些不同级别的特征图连接起来,汇总成总的特征图,总共得到了5层通道数均为512且图像尺寸均是64×64的特征图(5层中,有1层没有经过PPM模型);再把这5个特征图融合起来,就可以进行图像的分割和分类。其中,金字塔等级的数量与每个卷积核大小级别均可修改。
1.5 网络结构简图
图5是网络简图,这里的CNN不是简单的卷积神经网络,而是使用带有空洞卷积的残差网络(见图1)。输入图像大小是512×512×1,得到初步的全局特征图(Feature Map),大小是原始输入图像的[18],即64×64×512。在此全局特征的基础上,再分别通过PPM模型池化为尺寸大小不同的特征图,将不同感受野提取到的特征分别再进行降维处理。最后,把这些降维处理后的特征与先验的全局特征融合起来,就得到含有更多细节的特征图。
图5 网络结构简图
2 实验结果
2.1 数据集
从临床医生处采集50个前列腺患者的磁共振图像,由于磁共振图像是三维的,首先使用Matlab将每张磁共振图像转化成20张二维切片,共1 000张图像切片;为了使实验结果更具有说服力,每幅图像分别旋转±5°和10°,额外得到4 000张图片的切片,对数据进行增强;准确地标记出每张图像切片的前列腺轮廓,再把无病变的区域去除,得到前列腺MRI图像对应的标签图像。
共得到5 000张患者前列腺磁共振图像和与之对应的图像标签。在这5 000张图片中,用4 000张切片图像与标签输入网络进行训练,用另外1 000张切片图像来进行测试,得到此网络预测的标签与分割结果。再与这1 000个图像的真实标签(手工标记)进行对比,从而评价图像分割效果。
2.2 图像处理的工具和参数
该实验是在深度学习平台TensorFlow上面进行的,学习速率和衰减动量分别设置为0.000 1和0.995,迭代次数为250,batch为1。
2.3 评价标准
文中使用常见的重合率[Dice]与Hausdorff距离(Hausdorff Distance,[HD])兩个指标来评价分割结果,如下:
[M=max(mina-b),a∈A,b∈BN=max(minb-a),b∈B,a∈AHD=max(M,N)] (2)
式中:[A],[B]表示两个轮廓;[a],[b]分别是2个轮廓中的点。[HD]反映的是两个轮廓之间的最大差异,先找到一个轮廓上的点到另一个轮廓的最小距离;再将两个轮廓互换,得到另外一个最小距离;以两个最小距离中大的一个作为[HD]。[Dice]定义为:
式中:[AS]为自动分割图像;[MS]为医生手工标记图像。
2.4 实验结果分析
故将使用PPM模型与不使用PPM模型以及在使用PPM模型前提下相同卷积核大小、不同池化方式(最大值池化MAX和均值池化AVE)分别进行实验,所得实验结果如表2所示。其中,ResCNN表示带有空洞卷积的残差网络。
表2 不同模型下的分割结果
表3 不同分割方法的实验结果对比
从表3可以看出,本文方法的分割精度在[Dice]和[HD]两个指标上是超过了已提出的一系列前列腺MR图像分割方法,且所用时间极少。
为进一步展示所提出方法的分割效果,图6和图7给出了4个患者的前列腺磁共振图像分割结果。绿色轮廓是医生手工标注的前列腺病变部分,红色轮廓为基于PSP?NET网络模型预测分割结果。图7是原始标签与模型预测标签的对比。通过比较可以看出,此方法已经很接近临床医生手工的真实标记。
图6 分割结果 (一)
图7 分割结果 (二)
3 结 语
本文使用如今比较火热的神经网络、深度学习来实现前列腺MR图像的自动分割。文中训练网络是将三维的磁共振图像先转化为二维的图像切片,用这些切片去训练并优化网络。实验结果表明,基于PSP?NET网络的前列腺磁共振图像分割方法已经超越其他算法,且分割用时极少,能够更好地应用于临床诊断。
参考文献
[1] LITJENS G, TOTH R, VAN DE VEN W, et al. Evaluation of prostate segmentation algorithms for MRI: the PROMISE12 challenge [J]. Medical image analysis, 2014, 18(2): 359?373.
[2] MAHAPATRA D, BUHMANN J M. Prostate MRI segmentation using learned semantic knowledge and graph cuts [J]. IEEE transactions on biomedical engineering, 2014, 61(3): 756?764.
[3] 李雪丽,庞树茂,阳维,等.椭球先验约束的前列腺磁共振图像分割[J].南方医科大学学报,2017,37(3):347?353.
LI Xueli, PANG Shumao, YANG Wei, et al. Segmentation of the prostate on magnetic resonance images using an ellipsoidal shape prior constraint algorithm [J]. Journal of Southern Medical University, 2017, 37(3): 347?353.
[4] SHUAI B, LIU T, WANG G. Improving fully convolution network for semantic segmentation [J]. IEEE transactions on image proceeding, 2016(9): 597?608.
[5] KOREZ R, LIKAR B, PERNU? F, et al. Model?based segmentation of vertebral bodies from MR images with 3D CNNs [C]// Proceedings of International Conference on Medical Image Computing and Computer?Assisted Intervention. Quebec: Springer International Publishing, 2016: 433?441.
[6] BROSCH T, TANG L Y W, YOO Y, et al. Deep 3D convolutional encoder networks with shortcuts for multiscale feature integration applied to multiple sclerosis lesion segmentation [J]. IEEE transactions on medical imaging, 2016, 35(5): 1229?1239.
[7] 詹曙,梁植程,谢栋栋.前列腺磁共振图像分割的反卷积神经网络方法[J].中国图象图形学报,2017,22(4):516?522.
ZHAN Shu, LIANG Zhicheng, XIE Dongdong. Deconvolutional neural network for prostate MRI segmentation [J]. Journal of image and graphics, 2017, 22(4): 516?522.
[8] HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks [C]// Proceedings of European Conference on Computer Vision. Berlin: Springer, 2016: 630?645.
[9] YU F, KOLTUN V. Multi?scale context aggregation by dilated convolutions [J]. Journal of image and graphics, 2015, 20(4): 516?522.
[10] QIU W, YUAN J, UKWATTA E, et al. Dual optimization based prostate zonal segmentation in 3D MR images [J]. Medical image analysis, 2014, 18(4): 660?673.