基于数据增强的CT图像病灶检测方法①

2022-01-06马国祥严传波张志豪

计算机系统应用 2021年10期

马国祥,严传波,张志豪,森干

（新疆医科大学医学工程技术学院,乌鲁木齐 830054）

近年来,随着计算机技术和医学影像技术的发展,基于医学图像的计算机辅助技术取得了较快的发展.在人工智能和大数据新的时代背景下,医学CT（Computed Tomography）图像病灶检测方法也得到了进一步的研究.CT图像利用X射线束对人体可能出现病变的组织进行扫描,通过不同体素对X射线束的吸收及衰减系数,形成从黑到白不同灰度的像素,并将这些像素按照矩阵进行排列构成灰度图,这些像素灰度值的强弱反映了不同器官和组织对X射线的吸收程度.其中偏黑区域表示低密度区域,偏白区域表示高密度区域,从而反映正常组织与病变组织的对比差异性.一般的CT图像都需要进行定量分析,放射科医师和肿瘤专家通过CT图像的形状和纹理初步完成疾病的诊断,为后期的临床诊断提供了重要的参考依据.近年来,已经成为非侵入性诊断最常用的医学成像方式.但是,在临床中主要依靠人眼实现对CT图像的分辨与测量,需要专业医师耗费大量的时间和精力,而且需要丰富的解剖学知识和临床经验,存在人为主观性强、测量结果准确性差、可再现性差、图像信息利用率低等问题,常常导致疾病的漏诊或误诊.为了能够提高影像诊断的效率和诊断精度,提高CT影像数据的利用率,引入智能图像处理技术,辅助医师进行疾病诊断已成为现代医学影像学发展的必然趋势.近年来,随着CT扫描技术和影像信息化管理技术的提高,基于CT图像的病灶分割技术已经取得了一定的研究成果.但是,一直以来受限于医学图像获取困难,数据量少、图像标记成本高等问题,导致医学影像数据在模型训练过程中无法达到最好的检测效果.主要表现在模型泛化性能低、模型复杂程度受限、模型选择单一等问题,严重制约了大规模集成算法在医学影像检测和分割中的应用.

1 相关技术

CT图像病灶检测的目的是将具有一定特殊含义的医学影像图片进行相关特征的提取,为病理学研究和医疗诊断提供有效的依据[1].病灶的提取过程不需要人为干涉,整个流程通过计算设备自动完成,有效地节省医师的诊断时间、提高诊断精度,从而达到辅助诊断的目的.但是,由于人体组织结构的复杂性以及个体表现的差异性,使得CT影像表现出较高的复杂度,而且图像自身缺乏简单的线性特征,为基于CT的病灶检测带来了一定的困难.此外,医学图像的分割由于其形状的变化和边界的模糊,一直是CT图像分析中的难题.相较于普通图像,其复杂度高,灰度范围大,边界不清晰,造成了图像中人体组织间语义关系的不明确性.医学影像数据获取较难,数据量少,这也为病灶检测方法的研究带来了一定困难.目前,在医学图像病灶分割领域已有较多的学者提出了自己的解决方案.常见的医学图像分割算法有:基于阈值的方法、基于聚类的方法、基于区域划分的方法、基于图割的方法、基于活动边界和水平集的方法以及基于深度学习的方法等.

（1）基于阈值的方法需要设置一个全局的阈值,根据阈值的大小确定有差异性的不同区域.该类方法的关键在于阈值的确定,然而医学图像中不同组织的图像差异较小,即使遍历所有取值也无法找到能够合理分割的阈值.在此基础上,有人提出了直方图阈值分割方法,通过捕捉直方图的一般特征确定区域的位置.

（2）基于聚类的方法采用无监督的方式捕捉样本密度较高的区域并归为一类.但是医学图像中像素的分布一般满足高斯分布,如果按照聚类算法的假设,就会将全部像素聚为一类.难以使用空间信息是基于聚类方法的直接缺陷.

（3）基于区域的方法有种子区域生长和分水岭算法.种子区域生长法的关键在于种子点的选择、相似性的度量、生长规则,其中相似性度量最为关键.常用的相似性度量方法有像素值、颜色、纹理等.分水岭算法把图像看作是测地学上的拓扑地貌,图像中每一点像素的灰度值表示该点的海拔高度,模拟泛洪算法确定区域的分割边界.分水岭算法对微弱的边缘有很好的响应,因而常常会导致过分割.

（4）基于活动边界和水平集的方法需要人工提供初始前景范围曲线,然后让范围曲线在根据图像数据得到的能量函数的作用下演化,使其向前景边缘逐渐逼近,最终找到前景的边缘,在达到前景边缘时能量函数的取值最小.活动边界模型直接对范围曲线进行演化,而水平集则根据图像数据构造出三维曲面,通过三维曲面的演化以及取等值线的方式间接实现范围曲线的演化.前背景的边缘处一定具有较大的梯度,因此能量函数最重要的构造依据就是图像的梯度,仅依靠梯度会陷入局部最优,一般还会加入曲线的曲率和其它先验知识.活动边界模型和水平集方法希望通过曲线和曲面的传递作用以及其它先验突破梯度的局部极大值.

（5）基于深度学习的方法:通过对已知的样本数据建立像素及其一定范围内领域的像素到实例或者类别的映射.该类方法利用了深度学习强大的非线性拟合能力,并使用大量的样本数据参与训练,通过这种方法建立出来的映射模型具有较高的准确性.从深度学习的分割效果来看,基于深度学习的分割方法以其优秀的特征提取能力在该领域取得了较好的效果.本文将在后续章节重点讨论目前流行的深度学习病灶检测算法.

2 深度学习病灶检测研究现状

深度学习能够自动从大样本的数据中学习,从而获得数据中深层次的特征表达,并且具有良好的特征鉴别能力.可以有效地提升各种机器学习任务的性能,已广泛应用于信号处理、计算机视觉和自然语言处理等诸多领域[2].基于深度学习的医学影像检测和分割领域也呈现出快速发展趋势,但是医学图像存在获取困难,数据量少、图像标记成本高等问题,导致医学影像数据在深度学习的过程中无法达到较好的效果.主要表现在模型泛化性能低、网络层数无法向深度扩展、模型选择单一等问题,严重制约了深度学习算法在医学影像检测和分割中的发展.虽然有大量研究者在模型优化方面已经取得了一定的研究成果,但是还是无法弥补样本量少的自身缺陷.为了克服深度学习中样本量对模型检测效果的影响,大量研究者提出了图像增强方法扩充训练样本集,为数据扩充提供了新的方法,缓解了影像分析对数据量的需求问题.孟琭等[3]提出了基于生成对抗网络的肝脏肿瘤CT图像扩充算法,该方法将肝脏CT原始图像和肝脏病变标记图像进行配对,使用生成对抗网络的pix2pix架构[4]生成病变的肝脏图像,并生成了真实度较高的仿真图像.甘岚等[5]改进了DCGAN算法对小样本数据进行了增强,在生成网络和判别网络中加入了谱归一化,得到了更加稳定的网络结构,并在3个数据集上进行了实验,结果表明无论在清晰度以及识别率方面都有了较大提升.陈文兵等提出了一种集成高斯混合模型及条件生成式对抗网络[6],并在天气形势图基准数据集上进行模型验证,相较于未进行数据增强的模型分类精度得到较大提高.林志鹏等将生成对抗网络应用于宫颈细胞图像数据增强中[7],在Herlev宫颈细胞分类问题中取得了较好的分类效果.此外,Han等[8]提出在脑转移瘤MR图像上进行数据增强,有效地减少假阳性数量,提高了接近10%的的诊断灵敏度.Hu等[9]利用GAN（Generative Adversarial Network）网络,根据输入的MRI图像生成相应的前列腺运动模型.Chennamsetty提出了一种基于GAN的脑部MRI图像病变检测模型[10].在医学图像分类[11]、医学图像合成[12]、病灶分割[13]等方面基于GAN的图像增强方法的应用也较为广泛.本小结首先概述了医学CT图像成像特点以及病灶图像的特点,然后针对病灶检测及分割任务对现有方法进行了归类总结,并阐述了样本量少是当前医学影像检测和分割的难点.本文将从医学病灶检测评价指标、图像增强方法、现有的病灶检测方法等方面进行阐述.

3 图像数据增强方法

3.1 传统图像数据增强方法

数据增强是指通过对现有数据对象进行变换,从而捕获数据特有的模式,进而达到扩展数据的目的.在传统图像处理领域,常常通过对图像的几何变换进行数据的扩充.常见的数据增强方法有PCA（Principal Component Analysis）抖动[14]、随机裁剪[15]反射变换、翻转变换、缩放变换、平移变换、对比度变换、噪声扰动、颜色变化等.其中,反射变换是指在现有图像的基础上,随机旋转图像一定的角度,表示图像中内容的方向.噪声扰动指给图像添加一定的椒盐噪声或高斯噪声,使得图像呈现特有的噪声模式.常见的数据增强效果如图1所示.

图1 传统医学图像数据增强效果

3.2 基于深度学习的数据增强方法

由于医学图像有着更高的分辨率、更多的纹理、细微结构、更强的相关性、更大的存储空间以及更宽的灰度范围[16],而且直接涉及临床应用,因此必须确保医学图像的可靠性、严谨性和高质量.近年来,基于深度学习的数据扩充方法也得到了快速发展,与传统的数据增强方法比基于深度学习的方法生成的样本数据质量更高、依托专家经验更少,更能代表真实场景中的样本对象.2014年Goodfellow等[17]受博弈模型的启发提出生成对抗网络模型,作为一种无监督深度学习模型,生成对抗网络模型被广泛应用于图像合成[18]、数据增强[19]、超分辨率[20]等问题中.与传统数据增强方法比,GAN网络可以摆脱原图的限制,根据随机噪声学习真实样本分布,产生同等质量的新样本数据.此外,自编码模型作为一种深度生成式模型,也逐渐地被应用到医学图像数据增强领域.作为无监督数据增强方法,尝试通过模型学习数据满足的特定分布,从而随机生成与样本集分布一致的数据,该类数据可以表达出原始数据更多的模式.目前基于生成式模型的数据增强方法有基于深度信念网络的（Deep Belief Network,DBN）[21]、变分自编码器（Variational AutoEncoder,VAE）[22]、基于有向图模型的赫姆霍兹机[23]、深度玻尔兹曼机（Deep Boltzmann Machine,DBM）[24]、基于无向图模型的受限玻尔兹曼机[25]、自回归模型（Auto-Regressive model,AR）[26]以及生成对抗网络等.在医学图像数据增强中使用较多的是VAE与GAN,VAE虽然可以生成相似的样本图像,但是生成的图像比较模糊.相较于显示建模方式,隐式建模方法GAN不仅避免了难解的推断,而且还可以生成高质量的图像[27].具有拟合高维数据的能力,在图像生成方面具有较好的表现.

4 基于GAN的医学图像病灶检测算法

医学CT图像相比于传统图像,复杂度高、灰度范围大、边界不清晰,而且CT图像的拍摄过程会对人体造成较大的电离辐射,所以造成医学CT影像数据获取困难、病灶分割不准确等问题.如果能够利用数据增强方法扩充现有医学影像数据,不仅有效地节省数据标注的工作量,而且可以进一步提高医学影像分割模型的复杂度,从而使病灶分割精度能够进一步得到提升.虽然传统基于图像的数据增强方法能够扩充一定的数据,但是扩充的数据还是在原始数据自身的基础上进行调整扩充,不能满足医学数据的生物学变化特征,分割性能提升有限.基于GAN的数据增强方法,为医学影像数据增强提供了新的解决思路,能够有效地避免此类问题,缓解医疗智能辅助诊断系统对数据量的应用需求.

4.1 GAN模型概述

GAN在深度学习框架的基础上,引入了零和博弈[28]的思想,由一组对抗性神经网络构成,生成器试图生成可被判别器误认为真实样本的生成样本,通过训练使生成器和判别器达到博弈均衡状态.与其他深度学习模型如循环神经网络（RNN）[29]、长短期记忆神经网络（LSTM）[30]、卷积神经网络（CNN）[31,32]不同的是,GAN属于生成式模型,可以根据当前样本与标签学习样本的联合概率分布,拟合与训练样本分布类似的描述对象,其本质是深度神经网络组成的非线性函数.GAN模型结构如图2所示,生成器G从真实样本中捕获数据分布映射到某个新的数据空间,输出的生成数据记作G（z）,其分布Pg（z）看上去与原始数据集样本的分布Pr（x）类似.判别器D根据输入的真实数据x和生成器生成的数据G（z）,判定当前输入的样本属于真实分布的概率,当该概率越大,表示属于真实数据的概率越大,反之则认为该输入是生成的样本.判别器D将判定结果再返回给生成器G,使得G生成的数据逐渐与真实数据保持一致.当模型达到最优的理想状态时,判别器D无法分辨输入的是真实数据还是生成的数据,此时认为生成器G已经学到了原始真实数据集的分布,模型已经达到了纳什均衡[33].其中,生成器的输入可以是一个随机变量,一般使用高斯分布的噪声,通常由100维的随机编码组成[34].生成器主要根据判别器D的反馈机制调节分布的超参数,使其满足样本的真实分布.

图2 GAN基本框架图

GAN在理论上能够拟合任何分布,而且模型设计简单,不需要预先定义复杂的函数模型.此外,无监督的训练方式,使模型能够学习数据自身分布的特性和内在规律,颠覆了传统人工智能模型的训练方式.GAN被广泛应用于医学图像数据增强领域,但是标准GAN模型存在一系列的问题,如训练的稳定性和收敛性难以保证,容易发生模型崩塌,无法保证模型的训练能够有序进行.此外,生成器生成的数据缺乏多样性、模型容易过拟合等问题给GAN的应用带来了一定的局限性.近年来,许多新的GAN模型的提出和训练技巧的改进都是在模型稳定性、数据多样性等方面进行,进而提高数据的生成质量[35].基于GAN的改进模型的提出,也为医学图像病灶分割提供了新的解决思路.目前在医学领域常见的改进模型有基于标准GAN的数据增强方法、基于pix2pix架构的数据增强方法、基于CycleGAN的医学图像数据增强方法等.模型对比结果如表1所示.本文将在后续章节进一步讨论3种模型的原理、优缺点及其应用场景.

表1 GAN模型比较

4.2 基于标准GAN医学图像数据增强方法

一般的CNN网络应用于医学图像领域时大多采用的是浅层的网络结构,医学图像数据量的限制导致深度学习算法无法向更复杂、更深层次探索[36-38].为了更好地解决医学图像数据量少与深度学习模型数据量需求之间的矛盾,可以借助GAN强大的拟合能力,生成能够模拟真实疾病的医学图像数据.

基于GAN的图像生成方法有两类,一类是基于服从特定分布的随机向量生成图像,一类是图像到图像的转换.其中,标准GAN模型属于基于随机向量生成图像的数据增强方法,该方法利用了深度学习强大的非线性映射能力,可以将采样的随机向量映射为目标域中的图像.该类方法还包括基于高斯混合模型的条件生成对抗网络[6]、自注意力生成对抗网络（Self-Attention Generative Adversarial Network,SAGAN）[39]、信息最大化生成对抗网络（Info-GAN）[40]等.其中,Maayan等[41]将标准GAN应用于医学图像分类问题中,利用GAN生成肝部图像,并将生成的肝部图像利用CNN模型进行分类,在肝脏囊肿、转移瘤、血管瘤的分类问题中,通过深度卷积GAN生成肝脏病变样本数据的方式,将总的分类准确度从78.6%提高到了85.7%,敏感性和特异性也在不同程度上得到了较大的提升,取得了更好的分类效果.GAN模型中生成器的网络结构如图3.

图3 GAN模型生成器网络结构

4.3 基于pix2pixGAN医学图像数据增强方法

基于GAN的pix2pix架构[4]的生成器部分采用了U-Net网络结构[42],利用U-Net的编解码以及跳跃连接机制,融合输出特征以恢复下采样中丢失的空间信息,编码部分主要用来提高底层的高分辨率细节,解码部分提供高层低分辨率语义信息,二者结合可以有效地提高分割性能.在此基础上结合GAN的pix2pix模型,可以有效地降低图像细节的模糊度、减少噪声对生成图像的影响,生成较真实的医学图像.孟琭等在pix2pixGAN结构的基础进行了改进,将白化后的肝脏肿瘤图像在判别阶段进行配对操作.通过量化对比,该算法生成的肝脏肿瘤图像的平均结构相似性达到了0.9973,平均分支信噪比为64.72 dB.取得了较好的生成效果.pix2pixGAN模型结构如图4所示.

图4 pix2pixGAN模型结构图

4.4 基于CycleGAN的医学图像数据增强方法

随着GAN模型的不断改进,CycleGAN（Cycle Generative Adversarial Network）逐渐被应用于医学图像分割领域[43-45].CycleGAN是GAN的一种衍生模型,在标准GAN的基础上,能够根据目标域数据与源域数据的共有特征形成映射关系,且不要求源域与目标域一一对应,因此应用范围更加广泛,在图像的风格迁移和医学图像处理上有许多的应用[46].Hia等基于CycleGAN模型,对骨盆部位进行了CT图像和MRI图像之间跨模态的转换[47].Quan等利用CycleGAN的改进模型进行MRI图像重建[48].姚哲维等利用CycleGAN进行数据增强,提高非对比增强型CT图像的数据,有效地解决了对比增强CT图像与非对比型CT图像在数量上分布不均衡的问题[46].

CycleGAN网络结构包含两个生成器G和F,以及一个判别器D.首先将原始数据集输入第1个生成器G中,将生成的增强图像输入到第2个生成器F中计算循环一致性损失,然后将生成图像输入到判别器D中,判断其是否为真实图像,计算对抗损失.CycleGAN将循环一致性损失与对抗损失的加权和作为模型的损失函数,进行模型超参数的训练.其模型结构图如图5所示.

图5 CycleGAN模型结构图

5 总结与展望

目前,基于医疗影像的辅助诊断技术正处于快速发展阶段,但是受医学影像数据量的制约,使得基于深度学习的建模方法无法向更复杂的模型进行探索.本文从医学CT影像数据增强方法出发,概述了医疗影像病灶图像的成像特点,针对病灶检测及分割任务对现有方法进行了归类总结,并阐述了当前医学影像检测和分割的难点.分别从医学病灶检测相关技术、影像增强方法、基于生成对抗网络的病灶检测方法等方面进行了总结.最后,针对医学领域内基于深度学习的数据增强方法进行了对比分析.

当前基于数据增强的医学图像病灶检测主要集中在生成式建模方法,其中生成对抗网络较其他显式建模方法,避免了难解的推断问题,而且可以生成高质量清晰的图像,具有拟合高维数据的能力,被广泛应用于医学影像处理领域.但是,标准生成对抗网络由于其自身的特点,无法保证训练过程中的稳定性和收敛性,而且容易发生模式崩塌.因此,在模型稳定性、数据多样性等方面的改进将会是以后标准生成对抗网络的发展趋势.此外,针对医学病灶的成像特点以及数据量的大小构造合适的网络结构,也将是未来医学病灶检测研究的一大趋势.