APP下载

一种基于全卷积神经网络的肺结节测量校准方法研究

2022-02-23汤福南

医疗卫生装备 2022年1期
关键词:屏气结节肺部

杨 静,汤福南,张 晖*

(1.南京医科大学附属儿童医院放射科,南京 210008;2.南京医科大学第一附属医院临床医学工程处,南京 210029)

0 引言

根据2016年公布的数据,在各种类型的癌症中,肺癌的发病率和死亡率均居于前列[1]。通常,CT检查被认为是检查肺部病变最精确的成像模态[2],随着CT技术的进步,早期无法发现和诊断的肺部影像,如极小的肺结节、密度变化不明显的磨玻璃结节、肺门附近易被掩盖的肺结节影像也可以被清晰地观察到,文献报道≤10 mm的纯磨玻璃密度结节的检出率也越来越高[3]。结节处理是以体积和倍增时间为基础[4],但肺结节每次检查均为屏气扫描,屏气的深浅程度不会完全一致,不同的屏气深度会影响同一肺结节体积倍增情况的测量结果,进而影响肺部病变良恶性的临床诊断。为了使每次的测量结果具有一致性和可比性,就需要将屏气的程度进行量化并校准每次测量的肺结节体积。现有的肺结节体积倍增测量要求受检者在检查中尽可能保持相同的呼吸深度,必要时还需要进行呼吸训练以规范呼吸[5],在此基础上认定前后2次屏气深度完全相同,且测量过程中不会进行任何误差校准,但每次受检者的呼吸并不可能完全相同,所以临床诊断结果存在较大误差[6]。目前人工智能在肺结节筛查方面已比较成熟,但在肺结节定性和肺结节测量方面仍存在一定盲区,如评估呼吸运动对肺结节测量结果的影响还停留在规范受检者呼吸等方面[7]。本研究的目的是构建一种用于肺轮廓语义分割的全卷积神经网络,并以此为基础准确勾画出肺部轮廓,以肺轮廓的改变量来修正由于呼吸运动而造成的对肺结节测量结果的偏差。

1 资料与方法

1.1 一般资料

网络训练与测试数据来自美国国立卫生研究院(National Institutes of Health,NIH)的CT图像数据集中的263幅胸部图像,其中软组织窗75幅、肺窗188幅。实验结果验证数据来自25例PET/CT肿瘤筛查的患者,每例患者的PET/CT检查图像包括用于衰减校准的自由呼吸胸部CT检查图像和屏气胸部CT检查图像。NIH的数据一般是将同一三维体积中的数据按顺序排放在一起,为了避免训练数据出现在一个三维体积中提取多幅图像的情况,在选取训练数据时会根据图像在每个三维体积中的特征,在同一个三维体积中,肺尖取1幅图像,肺中部取2~3幅图像(病灶有代表性的会适当多取1~2幅图像),肺底取1幅图像,以达到取样合理的目的。

1.2 实验方法

本研究的依据是肺结节的大小应该与单次屏气深度呈比例,以肺实质容积表征每次屏气深度,屏气深则肺部扩张大,肺容积加大,屏气浅则肺部扩张小,肺容积偏小,而肺结节一般会随肺部的扩张而拉伸,其拉伸程度和肺部的扩张程度呈比例。以肺轮廓的改变量来校准由于呼吸运动而造成的对肺结节测量结果的偏差,校准原理:首先分别根据屏气和自由呼吸时CT图像中肺部轮廓所包含的像素总数和单个像素的大小分别计算出屏气和自由呼吸2种CT图像的肺实质的容积,其次求出屏气和自由呼吸时肺实质容积的差异,然后根据肺部容积的差异求出校准因子,最后用校准因子对实测的肺结节长度进行校准从而得到准确的肺结节尺寸。计算公式如下:

式中,V为肺实质容积;C为图像中肺部像素总数;P为单个图像像素大小;V自由呼吸为自由呼吸相肺实质容积;V屏气为屏气相肺实质容积;ΔV为自由呼吸与屏气之间肺容积差;fad为校准因子;L自由呼吸为实测的肺结节长度;L′自由呼吸为校准后的肺结节长度。

本研究的难点在于准确地勾画出受检者的肺部轮廓并进行测量,以得到每次屏气的肺实质容积,通过比较2次肺实质容积的变化得到肺结节测量校准因子,进而对每次肺结节体积的测量结果进行校准。传统的肺部轮廓的分割方法一般是基于阈值的方法如分水岭分割、二维三维区域生长分割等[8],本研究构建了一个基于语义分割的全卷积神经网络,通过训练该网络实现对肺部轮廓的准确勾画,将该网络部署于校准软件中以实现对不同屏气相的肺结节大小的校准。

2 实验流程

本研究的实验流程如图1所示。具体步骤包括图像预处理、构建网络、网络训练和测试、保存与部署网络、新增数据的再训练。

图1 肺结节测量校准方法流程图

2.1 图像预处理

本研究首先采用标记软件对263幅胸部图像进行标记,标记图像应为用3种伪彩标注的包含肺实质、人体轮廓、图像背景的图像,如图2所示。同时将用于测试的原始DICOM图像转换为三通道色图,将原始图像和标记图像分别保存在不同文件夹下用于训练。

2.2 构建网络

构建网络的过程包括修改网络属性、搭建网络结构、为网络赋予初始权重3个步骤。

第一步,修改网络属性。由于VGG16是一种1 000个分类的分类网络,而本研究所要实现的是将一幅图像按照肺实质、人体轮廓、图像背景进行像素三分类,所以需要对原VGG16的全连接层进行修改,将1 000个分类修改为3类,代码如下:

pxLayer

图2 用于训练的部分原始图像数据集与标记图像数据集

pixelClassificationLayer('Name','labels','Classes',tbl.

Name,'ClassWeights',classWeights);

lgraph=removeLayers(lgraph,'pixelLabels');

lgraph=addLayers(lgraph,pxLayer);

lgraph=connectLayers(lgraph,'softmax','labels');

第二步,搭建网络结构。以修改的VGG16网络为核心,将VGG16全连接层和softmax层替换成反卷积层,如图3所示,网络结构如图4所示,最终构成一个91层的全卷积语义分割网络,其第2~32层是以VGG16的卷积层为核心的编码器,第34~89层为反卷积层的解码器。由于VGG16是一个经过预训练的成熟的分类卷积神经网络,使用该网络构成的全卷积语义分割网络可以充分利用预训练网络的训练结果,从而使用较少的数据进行训练就可以得到理想的结果。

第三步,为网络赋予初始权重。构建完成的网络需给其赋予初始权重,本研究是将数据集中各个特征组织如肺实质、人体轮廓、背景在整体图像中的出现频率作为初始权重因子。肺实质、人体轮廓、背景初始权重值详见表1,其中初始权重取的是出现频率的中值与各个频率的比值。

图3 全卷积语义分割网络结构图

图4 基于VGG16的用于肺部轮廓勾画的语义分割网络结构图

表1 特征组织的初始权重值

2.3 网络训练和测试

首先,将标记过的图像按照80%为训练集、20%为测试集进行配置,即210幅为训练图像,53幅为测试图像。同时为了增强训练效果、扩大标本量,还需要将原有的图像数据进行一定的扩增,包括图像的平移、图像的镜像、图像的翻转等。其次,对网络训练过程中的参数进行配置,包括设置学习率、优化函数、迭代次数、训练轮数等。最后,对网络进行训练。训练过程中,网络会动态调节各个卷积层的权重因子,训练完成后需使用测试集对网络进行测试,测试结果可以用于评判网络的性能和效果,如达到效果则完成训练,如未达到要求则应调节训练参数、优化数据集。

2.4 保存与部署网络

完成训练的网络保存为一个新的网络,该网络的每个卷积层的权重因子都是训练后的最新值,本研究是将生成的网络嵌入到肺实质测量的脚本中使用。将肺实质测量的脚本通过编译器生成可执行文件,从而脱离编译环境单独运行,最终完成部署。

2.5 新增数据的再训练

训练完成的网络可以直接用于临床,也可以作为预训练网络对新增的数据进行迭代训练,从而进一步优化网络。随着临床数据的增加,可以通过多次迭代训练进一步提高网络训练的效果。

3 结果

3.1 语义分割网络对肺轮廓分割的训练效果

本研究通过多次试验选择自适应动量(adaptive momentum,ADAM)算法作为优化算法,学习率为0.001,网络训练迭代210次,训练50轮,网络训练过程如图5所示。

图5 网络训练过程

采用测试数据集对训练完成的网络进行测试,训练完成的网络进行语义分割的结果如图6所示。训练好的网络会对测试集中的图像进行语义分割,分割为肺实质、人体轮廓、背景。通过分割完成后的图像可以对语义分割区域和人工勾画区域的重叠性进行测量,在测试集中随机对抽取的图像进行语义分割,分割区域和人工勾画区域的重叠性测量结果如图7所示。用准确率、交并比(intersection over union,IoU)和平均边界得分等指标衡量语义分割网络的最终目标分割效果。一般IoU大于0.5是可以接受的结果,本研究所用的模型IoU结果见表2,显示肺实质的平均准确率为0.924 7,IoU为0.836 2,训练成绩比较理想。由于所选训练图像为NIH提供的开源数据集,选取的训练集中有1/3是肺尖和肺底图像,而肺部占整体图像体积偏小,且NIH数据集中的图像基本都是有肺结节灶的图像,该类图像结节区域和正常肺部图像相比结构更复杂,标记与训练难度更大,所以导致IoU未能达到0.9以上。本研究设计的基于肺实质语义分割的全卷积神经网络以修正呼吸运动对肺结节测量结果偏差的校准软件可以将训练结果保存为新的网络,新网络作为预训练网络能增加数据迭代训练,所以随着训练图像增加和多次迭代训练,训练结果的准确性还能进一步提高。

由此,本研究搭建了一个新型的全卷积神经网络进行肺部轮廓的准确分割,并全部采用肺部CT图像进行训练,从而构建了一种新的肺结节测量结果校准算法。

图6 训练完成的网络进行语义分割的结果

图7 分割区域和人工勾画区域的重叠性测量结果

表2 全卷积神经网络语义分割训练结果

3.2 校准因子对肺结节测量值的影响

对25例受检者在屏气和自由呼吸2种呼吸模式同一断层的同一肺结节长轴进行测量,测量结果差ΔL如公式(5)所示。25例中有16例2种呼吸模式的测量结果差异较大(ΔL>1 mm),9例测量结果差异很小(ΔL≤1 mm),测量结果有较大差异的占比64%。使用本研究中的算法对16例有较大差异的测量结果进行校准,校准后误差有较大变化(Δ>1 mm)的例数为9例,其中最大缩小约1.5 mm,最小缩小约1 mm,校准后误差无明显变化(Δ≤0.5 mm)的例数为7例,校准后有较大变化的占比56.25%。

式中,L自由呼吸为校准前自由呼吸相肺结节长轴长度;L′自由呼吸为校准后自由呼吸相肺结节长轴长度;L屏气为屏气相肺结节长轴测量长度;ΔL为校准前2种呼吸模式肺结节测量差;ΔL′为校准后2种呼吸模式肺结节测量差;Δ为校准前与校准后2种测量差值之间的误差。

图8为误差最大的1例的测量图像。其中图8(a)中标注的测量值为自由呼吸图像测量结果,实测肺结节长轴长度为32 mm;图8(b)中标注的测量值为屏气测量结果,实测肺结节长轴长度为34 mm。由本研究中的算法得到的校准因子为1.045 4,校准后自由呼吸肺结节长轴长度为33.45 mm,校准前2种呼吸模式肺结节测量误差为2 mm,校准后2种呼吸模式肺结节测量误差为0.55 mm,减小了1.45 mm。

4 讨论

图8 误差最大的1例测量图像

随着螺旋CT在肺部疾病诊断中的广泛应用[9],肺结节的检出率逐年提高[10],但对于肺结节的定性仍然需要依靠诊断医生根据肺结节的各种测量结果进行判断。其中,肺结节倍增量是一个重要指标,不规则结节及三角结节通常多为良性,随访大小常常无变化[11],而有些肺结节的几何尺寸正好在符合外科手术的临界线上,此时结节体积测量的可重复性及准确性就尤为重要[12]。以往的诊断一般都是直接在前后2次的CT检查图像上进行测量,这种测量没有考虑到受检者的呼吸对测量结果的影响。要得到正确的肺结节倍增值,就需要全方位考虑各种因素对测量结果的影响。本研究将呼吸所导致的肺容积变化引起的肺结节几何尺寸测量结果的偏差进行了修正。研究的难点是对肺部轮廓的准确勾画,一般对肺部轮廓的勾画采用计算机辅助的人机交互方式、基于阈值分割(如分水岭分割、区域增长分割)等方法[13]。临床上多采用计算机辅助的人机交互方式进行勾画,但效率很低[14]。基于阈值的分割方法是早期肺部计算机辅助处理的常规方法,如传统的分水岭分割一般会把肺部分为多种不同的组织区域,无法准确分割肺部轮廓[15];区域增长分割的精度取决于种子点的选取、区域增长的条件和终止算法执行的条件这3个要素[16]。由于传统的计算机辅助设计自身存在缺陷,计算机辅助功能并不能有效提高临床的工作效率。近年来,深度学习方法在机器学习的很多领域都取得了显著的成效[17]。随着计算机算力的提高,人工智能的计算机辅助功能得到了加强,在图像分割中使用深度学习的全卷积神经网络是一种很好的选择。

本研究采用基于全卷积神经网络的语义分割方法对肺部轮廓进行勾画,相对于基于阈值分割的方法,神经网络具有部署后运算量小、能快速得到结果、对只有部分二维断层图像的肺结节诊断也能进行修正、通过多次迭代训练可以不断提高准确性等优点。

本研究用于验证的25例肺结节测量中,有16例在自由呼吸和屏气2种成像方法的肺结节测量中结果有差异,通过校准,其中9例缩小了测量差异,有效性达到了56.25%,其他7例对差异也有校准作用,但是校准的效果不明显(Δ≤0.5 mm),分析原因应该是用于训练的例数太少,造成对肺轮廓的区分准确性不足。随着神经网络对加入新的临床数据进行多次迭代训练,其校准的有效性应该能进一步提高。

本研究的不足之处在于:首先,用于训练和测试的数据集太少,其中训练的仅210幅图像,导致最终结果的有效性不太高;其次,没有进行多轮迭代训练,对神经网络迭代训练的结果仅有理论推导,尚无实验结果。下一步的研究需要进一步扩大样本数据量,对该全卷积神经网络要用新增数据进行多次迭代训练,以进一步提高校准软件的准确性和可靠性,同时也可以通过改变该全卷积神经网络结构中编解码器的类型,如以网络结构更深的VGG19代替VGG16组成新的网络用于训练等。

综上所述,本研究基于全卷积神经网络的肺结节体积倍增校准方法实现了对肺结节物理尺寸测量结果的校准,与传统的阈值法相比,其准确性、可持续优化性均有较大改进,能提高临床对肺结节诊断的准确性和效率,是一种有效的辅助诊断手段。

猜你喜欢

屏气结节肺部
星形诺卡菌肺部感染1例并文献复习
拍胸片时为何要屏气
盐酸氨溴索在慢阻肺合并肺部感染的临床应用
体检发现的结节,离癌症有多远?
肺结节,不纠结
发现肺结节需要做PET/CT吗?
肺结节≠肺癌,发现肺结节如何复查?
中医四看判断肺部好不好
拯救营地
屏气