基于RepMLP的肝脏CT影像分割
2022-03-19邱铎珂李丹
◆邱铎珂 李丹
基于RepMLP的肝脏CT影像分割
◆邱铎珂 李丹
(四川大学锦城学院计算机与软件学院 四川 611371)
随着人工智能技术的发展,越来越多的ConvNet模型结构被应用到医学影像领域,但是大多数传统的ConvNet模型结构是通过卷积层扩大视野来模拟长期依赖性,重复的局部操作影响了效率,因此本文应用了RepMLP,一种多层感知器风格的神经网络构建模块来提高效率,准确度更高。本文综述了基于RepMLP的语义分割在肝脏CT影像中的应用,介绍了RepMLP的原理以及在医学影像领域的意义,并且使用了多个神经网络经典模型,将多个实验数据进行对比。通过RepMLP语义分割的试验数据对比得到了结论,在肝脏CT影像分割中RepMLP得到了较好的成绩。试验数据表明,该RepMLP模型能在肝脏CT影像分割中具有更高的效率,更高的精确度。
语义分割;医学应用;RepMLP;人工智能
1 引言
随着计算机科技的不断进步,人工智能技术逐渐被应用在各个领域。近些年来,由于人工智能技术逐渐应用在医学影像诊断上,可以将医疗误差降低40%[1]。在医学领域中,由于医学影像的复杂性,完成医学图像语义分割是一项困难的任务,相比较于处理自然图像,医学影像会包括除了待分割目标外的其他组织或器官,待分割目标与周围其他器官或组织相比可能具有相似特征,因此需要使用适用性与精确性更高的模型网络[2]。本着对人工智能在医学领域应用上的兴趣,本文将人工智能技术运用在医学领域进行探讨。
本文使用的是由Xiaohan Ding等提出的RepMLP模型[3]。传统的CNN模型结构通过卷积层形成大的视野感受从而模拟长期依赖性,然而重复多次的局部操作会使计算效率降低[4]。与以卷积层为主要的CNN模型相比,全连接层有更好的全局能力与位置感知能力,能很棒地建模长距离依赖和位置模式,但由于空间信息缺失,缺少局部先验,不能很好地捕捉局部信息。RepMLP是一种重参化的多层感知机,充分利用全连接层,可以对全局能力与感知能力有更好的优化,使其在处理图像任务上有不错的效果。
RepMLP是由国内顶尖大学和顶尖期刊发表,并且部分代码都是使用pytorch框架[5],于是。本文就基于RepMLP构建了一个训练数据的模型,使用该模型完成肝脏CT影像的分割实验,并取得了不错的成绩,验证了将RepMLP模型用于医学领域的可行性。
2 基于RepMLP神经网络的肝脏CT影像分割模型
2.1 模型介绍
本文使用了由Xiaohan Ding等提出的RepMLP,RepMLP是一种多层感知机构建的神经网络模型,由一系列的全连接层构成。RepMLP性能提升不是以加强卷积层来实现,而是使用全连接层来替换常规的卷积层,以此使模型的性能更强大。但是由于全连接层没有局部先验,于是利用了全连接层的全局能力和位置感应能力,通过一种简单的跨平台的算法重新定义参数化卷积,将局部先验整合到全连接层中。
在使用RepMLP来训练之前,先对RepMLP进行介绍。图1引用了文献[3]中的结构图,可以看出RepMLP由Global Perceptron、Partition Perceptron、Local Perceptron三部分构成。将特征图用一个张量M(N,C,H,W)来表示,其中N是批尺寸,C是通道数,H,W分别是高和宽。在Global Perceptron部分中首先对特征图进行切分,成为分区映射(Partition Map)即:
这样的操作,可以让不同的分区共享参数,减少计算所需参数,但是会导致模型将单独查看分区,完全不知道它们是并排放置,各部分之间的联系受到破坏。为向每个分区添加相关性,于是Global Perceptron将特征图进行平均池化并放入BN层和两个全连接层,进行批归一化操作再把特征图拍平,将三维变成一维最后再Reshape成:
再与分区映射进行相加。
Partition Perceptron部分拥有一个全连接层和一个BN层,使用它们来获取分区映射。通过参考分组卷积实现分组全连接层,来减少产生的参数。虽然全连接层分组不直接支持一些框架如Pytorch,但它能通过1*1的分组卷积来实现。特征图的张量从
通过1*1的卷积层和BN层,减少参数对通道数进行分组,最后将张量reshape回原始输入形态。
Local Perceptron部分是对被切分处理过后的特征图输入到分组卷积层。在图一中,卷积核大小分别是1、3、5、7,且每个卷积层都需要padding操作,并且卷积核大小必须要小于特征图,使用大于分辨率的内核是没有意义的。该部分功能是将从Global Perceptron传过来的特征图同时送入分组卷积核中,得到4个形态为:
的张量,并送入BN层,并与Partition Perceptron的计算结果相加。
在训练阶段,将Partition Perceptron、Local Perceptron这两模块合并为一个全连接层。如图1所示。用F和W分别表示卷积层和全连接层,展示如何将卷积层合并到全连接层:
于是可以得到:
RepMLP被应用在很多项目上,在基于RepMLP在人脸识别的应用上,使用相同的参数量下与传统ConvNet相比,RepMLP-Res50的计算量更低、推理速度更快。在Cityscapes[6]语义分割的应用上,RepMLP-Res50-g4/8的PSPNet在mIoU中比ResNet网络好2.21%,虽然参数更大,但产生更少FLOPs,而且速度也更快。可见RepMLP具有很好的自然图像特征空间的表现能力。而医学影像的特征空间远小于自然图像[7]。因此我们将RepMLP网络模型用在肝脏CT影像分割实验中。
2.2 方法流程
对于肝脏CT影像分割任务,RepMLP的处理流程图如图2所示。开始要先对训练数据集进行预处理,将所有数据都调整为统一大小尺寸(223,223,3),这样做可以避免因个别尺寸不同的样本对实验结果产生很大的误差。所以在训练数据规则化后,再将数据传入训练模型开始训练。
图2 流程图
本文不是将所有的数据一起打包进行训练,而是使用批处理的方式,有时数据非常大可以选取训练数据中的一小批不断地进行训练,这样神经网络的效率会大大提高。
在第一次训练好网络模型之后,会得到多个名为epoch.pth的权值文件,选取结果最好的权值文件作为下一轮训练的权值,重复进行RepMLP训练直到得到满意的权值。
得到了满意的path权值文件之后,将权值文件放入预测函数中,再进行图片预测操作。首先将预测图片预处理,对图像特征进行抽取,然后放模型载入训练好的权值文件,最后输出预测图片,示例如图3所示。
图3 分割示例
3 实验结果及对比
3.1 实验环境与实验数据
本文实验所用到的实验环境与设备如下:Windows1064位操作系统,16GB内存,NvdiaGeforce GTX 10606GB显卡,InterCoREi52.30Hz。本文的实验数据集是由放射科CT影像构成,其中包含200幅腹部CT影像与200幅人工标记图,共计400幅。
3.2 实验结果
如图4所示为RepMLP分割结果,图片中第一行是肝脏CT影像的原始图片,第二行图片是实验分割图片,其中红色部分是实验算法的自动分割结果,第三行是人工标记图片,白色部分则是人工标记的结果。第一行所有图片均为在数据集中随机选取的分割图片。通过实验图片可以看出,本文的实验分割结果与人工标注结果是基本吻合的,可以精确地标记出CT影像上肝脏的具体位置及轮廓。
3.3 数据对比
为了进一步验证将repmlp运用在医学影像领域的可行性,本文使用由ZHAO H等提出的Pspnet[8]与由K He等提出的ResNet50模型网络[9],通过在相同的条件下运行相同的数据集进行实验,将后者得到的实验数据与前者进行比较。
图5为RepMLP、Resnet50、Pspnet模型的训练分割结果。其中,第一列是数据集中随机抽选出的原图,第二、三、四列皆是实验分割结果。图片上红色区域为本文算法对目标的分割标记的结果。在相同训练条件下,经过横向对比,由图五可以看出,第二列RepMLP的实验分割结果与标记目标最为吻合,轮廓也最为清晰。
图4 RepMLP实验结果
图5 多个实验对比结果
图6、图7分别为RepMLP、ResNET50、Pspnet对肝脏CT影像分割的trainloss与valloss。可以发现,RepMLP无论是在trainloss还是在valloss上都有不错的表现,并且都是其中最低。在训练集体损失值图六中可以看出:RepMLP与ResNet50收敛迅速,损失值下降很快,RepMLP优于ResNet50,而Pspnet下降较慢。证明了RepMLP在对于肝脏CT的影像分割实验中要优于ResNET50和Pspnet。
图6 Train Loss
图7 Val Loss
本文通过对比RepMLP、ResNET50、Pspnet的实验结果,可以看出,RepMLP不论是在图像上,还是在数据上都要优于另外两个模型。证明了本文采取的方法在肝脏分割上的可行性和有效性。
3.4 评价
在实验过程遇到了许多问题,比如在模型训练的时候出现了过拟合的情况。通过实验结果,可以看出RepMLP在肝脏CT分割实验中,得到了不错的数据,经过此次实验,在以后可以将RepMLP应用到更多在医学领域的语义分割实验中。
4 结论
本文提出了一种基于RepMLP的肝脏CT影像分割的方法,通过将局部先验添加到全连接层,RepMLP模型训练期间在内部构造了分组卷积层来捕捉局部信息,并在预测分割阶段将卷积层融合进了全连接层。这种结构化的重参化技术让原本不适合图像分割的全连接层在图像分割上更有效。本文于是使用RepMLP实现了肝脏CT影像分割。
在以RepMLP模型进行实验的基础上,通过对比多组以Pspnet、resnet50为模型的实验数据,训练相同的数据集训以及预测相同图片,得到了结论。在分割结果与标记图片中RepMLP模型的实验结果与目标最为吻合,轮廓也最为清晰。在分割数据的比较中,RepMLP的train loss最低,精确度最高。通过实验结果对比,证实了将RepMLP模型应用在肝脏CT影像分割上的可行性。
[1]方莺霏.浅谈人工智能在医疗行业中的应用[J].通讯世界,2019,26(01):302-303.
[2]刘天宇. 基于深度监督网络的肝脏及肝脏肿瘤CT影像自动分割算法研究[D].兰州财经大学,2020.
[3]吴玉超,林岚,王婧璇,等.基于卷积神经网络的语义分割在医学图像中的应用[J].生物医学工程学杂志,2020,37(03):533-540.
[4]田伟倩. 基于卷积神经网络的医学图像分割算法研究[D].河北大学,2020.
[5]向松. 基于深度卷积神经网络的医学图像分割方法研究[D].武汉科技大学,2019.