深度学习CT超高分辨图像组学特征稳定性研究
2022-06-06彭思粤潘博洋李清楚陈如潭龚南杰萧刘士远
孙 瑶 王 祥 彭思粤 潘博洋 李清楚 陈如潭 龚南杰萧 毅* 刘士远*
随着计算机技术及CT硬件发展,超高分辨率CT(ultra-high-resolution computed tomography,UHRCT)应用于临床,空间分辨率得到显著提高[1]。与常规512×512 矩阵HRCT 相比,1 024×1 024 矩阵UHRCT靶扫描图像在观察肺结节微小结构方面表现突出,放射科医生能够更准确地诊断肺结节的良恶性,进一步降低患者误诊风险[2]。
近年来随着人工智能的最新进展,基于深度学习的CT 超分辨方法用于突破辐射剂量与图像质量之间的困境成为主要研究热点。诸多研究表明,深度学习超分辨方法可以在不额外增加辐射剂量和扫描时间的同时,生成超分辨图像,显著降低伪影、去除噪声[3-4]。在肺癌的早期诊断中,除了提高分辨率可以增加诊断信心外,放射组学的广泛探索研究也显示了独特的诊断价值。由于成像数据本身的性质,图像的组学特征稳定性受到诸多因素影响。例如患者呼吸相位、图像采集参数、图像分辨率、重建算法等,都可能给组学特征的稳定性带来挑战[5]。正如Shafiq-UIHassan等学者的研究结果,图像分辨率会对组学特征产生影响,像素大小差异与组学特征变异性具有相关性[6]。目前,基于深度学习的超高分辨CT 图像对组学特征稳定性的影响的研究较少。
因此,本研究的目的是应用一种基于深度学习的图像超高分辨模型,显著提高512×512 矩阵HRCT 图像的质量,对深度学习的超高分辨胸部CT 图像质量进行主观评价;同时进一步研究不同图像分辨率对组学特征稳定性的影响。
方 法
1. 数据收集
本研究方案通过了本院伦理委员会,本研究为回顾性研究,免除患者知情同意。回顾性收集2020 年10 月至2021 年5 月在我院行肺结节复查的患者53 例[男性26 例,平均年龄(50.4±13.7)岁;女性27 例,平均年龄(54.5±9.3)岁],共计53 个结节,21 730幅图像纳入本研究。其中24 例患者的7 680 幅HRCT图像、2 160 幅UHRCT 图像用于构建模型;29 例患者的9 280 幅HRCT 图像、2 610 幅UHRCT 图像用于视觉评估和组学特征一致性评估。
每位患者均使用256 排CT (iCT,飞利浦,荷兰)采集了512×512矩阵HRCT扫描和1 024×1 024矩阵UHRCT 靶扫描两组图像。所有患者在扫描前进行呼吸训练,扫描时均取仰卧位、在吸气末屏气扫描。扫描未注射造影剂。HRCT 扫描参数:准直0.625 mm×128 mm,管电压120 kV,自动管电流,重建层厚及间距1 mm,矩阵512×512,重建算法为肺算法,扫描野350 mm。UHRCT 靶扫描参数:准直0.625 mm×128 mm,管电压120 kV,自动管电流,重建层厚及间距0.67 mm,矩阵1 024×1 024,重建算法为肺算法,扫描野100 mm。
排除标准:患者进行CT扫描前曾进行穿刺活检、放化疗、手术等;结节周围伴有肺实质塌陷或阻塞性改变而难以清晰描绘边界;图像存在严重呼吸运动伪影;DICOM格式图像不完整。
2. 模型构建
本研究构建的模型由主干超分辨网络和梯度分支组成,主干超分辨网络采用了多个成熟的单层图像超分辨模块,以HRCT 图像为输入图像,生成SRCT 图像。尽管大多数深度学习模型倾向于通过增加可学习参数来提高模型性能,但本研究通过采用一个主干深度学习图像超分辨网络引入梯度分支,来证明梯度引导设计在临床CT 超分辨任务中的有效性。梯度分支输入HRCT 梯度图,利用其预测的SRCT 梯度图引导主分支,提供了UHRCT的先验结构。
本模型中超分辨网络由17 个残差模块组成,梯度分支由4 个残差模块组成,并在梯度网络中串联了超分辨网络的第二、六、十、十四个模块的特征矩阵以提高性能。残差模块将提取的特征与结构信息相连接,利用连接后的特征映射来预测SRCT图像。
本研究提出的梯度引导生成对抗网络框架见图1。
3. 视觉评估
3 名放射科医生(分别有3 年、5 年和10 年的临床工作经验) 分别对29 例患者的SRCT、HRCT、UHRCT 图像进行了独立评估。3 组图片以随机顺序并排显示在830 万像素液晶显示器(4K 分辨率)上。图像设置窗宽为1 450 HU,窗位为-520 HU。所有影像数据均经过脱敏处理。3 名放射科医生分别采用利克特5 分法评分表(表1)对噪声、条纹伪影、结节边缘、小血管清晰度、正常肺实质均质性、整体图像质量进行评估,最后将3名医生的评分取平均值。
表1 利克特5分法评分表
4. 组学特征一致性评价
使用西门子影像组学软件(Radiomics,版本1.2.6)在29 例患者的SRCT、HRCT 和UHRCT 图像上进行肺结节的分割。上述3 名放射科医生在横断位图像上(图像设置窗宽为1 450 HU;窗位为-520 HU)画出结节的最长径后,该软件自动在横断位图像上绘制覆盖整个结节范围的感兴趣区域,随后由3名医生手动调整肺结节在横断位、冠状位、矢状位图像上的边界。软件自动提取110个组学特征,包括18个一阶统计量、75个纹理特征和17个形状特征。
5. 统计学分析
所有计算均在SPSS(IBM SPSS,版本26.0)上进行。使用Kendall’s W 检验分析3 名放射科医生主观评分的组间一致性,Kendall’s W>0.8 认为一致性较好。采用单因素重复测量方差分析比较HRCT、UHRCT 和SRCT 图像的噪声、条纹伪影、结节边缘、小血管清晰度、正常肺实质的均质性和整体图像质量等6项评价指标。根据球形检验的不同epsilon值,采用Huynh-Feldt 和Greenhouse-Geisser 进行校正。Bonferroni 校正用于事后检验。P<0.05 时具有显著统计学意义。
使用组内相关系数(Intraclass correlation coefficient,ICC) 分 析3 名 放 射 科 医 生 在SRCT、HRCT 和UHRCT 图像上肺结节分割结果的组学特征一致性。ICC 值介于0 到1 之间。ICC≤0.2、0.2<ICC≤0.4、0.4<ICC≤0.6、0.6<ICC≤0.8、0.8<ICC≤1 分别表示一致性极差、较差、中等、较好和极好。
结 果
1. 视觉评估
本研究采用Kendall’s W 检验,分析3 名放射科医生视觉评估的一致性,结果显示这3 名医生评估结果的Kendall’s W=0.822,P<0.001,具有较好的组间一致性。
HRCT、UHRCT 和SRCT 图像的主观评价结果详见表2。
表2 HRCT、UHRCT和SRCT图像的主观评价结果
由表2得出,对于所有评价指标,SRCT、HRCT和UHRCT 各组之间是有差别的(P<0.05)。对于噪声和条纹伪影,SRCT 的表现优于UHRCT,但劣于HRCT,均达到显著性水平(P<0.05)。对于结节边缘、正常肺实质的均质性,SRCT 与UHRCT 无明显差异(P>0.05),但两者均优于HRCT(P<0.05)。对于小血管清晰度和总体图像质量,SRCT 的表现明显优于UHRCT 和HRCT(P<0.05)。图2、3 展示了两个典型案例。
2. 组学特征一致性评价
将3 名放射科医生的SRCT 与UHRCT、UHRCT与HRCT、SRCT 与HRCT 各组对比的组学特征ICC分级及平均值进行统计,详见表3。
由表3 得出,3 名医生对于3 组图像的组学特征一致性达到较好及以上(ICC>0.6)的比例均达到90%以上,其中对于第一位医生和第三位医生的肺结节分割结果,3 组图像两两比较的所有组学特征的一致性均是可接受的(ICC>0.4)。在第二位医生的肺结节分割结果中,SRCT 与UHRCT 对比组有两个纹理特征一致性较差(0.2<ICC≤0.4);UHRCT 与HRCT对比组中,有一个纹理特征一致性极差(ICC≤0.2);有两个组学特征的一致性较差(0.2<ICC≤0.4),分别为一阶统计量和纹理特征。
表3 组学特征一致性结果统计
讨 论
本研究提出了基于深度学习的图像超高分辨率模型,从主观上评价了该模型的超分辨性能是可靠的,且生成图像的组学特征稳定性总体较好。
随着图像分辨率的提高和像素数量增加,UHRCT 图像比HRCT 图像能够更清楚地显示正常肺组织和病变的细微结构是毋庸置疑的,但也随之带来更严重的噪声和条纹伪影[7-8]。近年来,深度学习在医学影像领域被广泛用于提升图像分辨率,降低伪影以及图像去噪。You 等[9]受循环一致的生成对抗网络(cycle-consistent generative adversarial networks,cycle-GAN)的启发,提出了一种利用多种目标函数、基于GAN 的半监督网络来实现图像超分辨率重建。Tang 等[10]提出了一种新的正弦图域GAN 超分辨率模型,该模型利用循环一致性损失、正弦图域损失和重建图像域损失,在正弦图空间生成超分辨率CT 图像。上述方法主要基于仿真数据或体模数据,配对的数据在空间位置上能够完全匹配;此外GAN模型容易出现生成图像结构失真的问题。本模型的构建与之前研究不同,我们构建了附带梯度引导分支的GAN 网络,通过调整对抗性损失、感知损失、像素损失和梯度损失的权重进行建模,模型所生成的图像,通过研究显示图像噪声和伪影明显降低,且对细节显示更加清晰,整体的图像质量得以提高,进一步提高放射科医生对早期肺癌的诊断信心。
对于本研究构建的深度学习图像超高分辨率模型,生成的SRCT 与UHRCT、HRCT 的组学特征一致性总体较好,由此得出该模型没有造成图像组学特征的较大变异,有益于深度学习超高分辨CT 的影像组学分析在临床中的进一步应用。从每位医生的3 组图像肺结节分割结果来看,SRCT 图像和HRCT 图像的组学特征一致性均最高。究其原因,可能是前期构建的模型基于HRCT 输入图像生成SRCT 图像,UHRCT图像作为金标准参考图像。此外,UHRCT图像由两次扫描获得,由于患者呼吸深度不同和运动伪影存在,结节局部形态和整体图像均可能受到影响。
在3 种类型的组学特征中,一阶统计量和形状特征的一致性普遍较好(ICC>0.8),一致性较差(ICC≤0.8)的组学特征绝大部分是纹理特征。我们的结果与既往的结果基本是一致的。据报道,一阶统计量和形状特征是对成像参数变化最稳定的放射组学特征,这可能归因于这两类特征依赖于分割的病灶边界;而纹理特征的变异性较大[11]。Larue 等[12]的研究得出,纹理特征变异性与图像分辨率差异相关,对图像进行重采样则会降低组学特征的变异性。Mackin 等[13]也发现,图像像素的大小不一致会造成纹理特征的变异性大大增加,并且得出图像重采样和低通滤波可以纠正高变异性纹理特征所占比例从80%降至10%。由于纹理特征与图像的空间和强度信息密切相关,因此空间分辨率对纹理特征非常重要[14]。在本研究中,HRCT、UHRCT 和SRCT 图像的层厚和像素大小不一致是造成纹理特征一致性较差的主要原因。
本研究还存在一些局限性。首先,本研究在构建模型时,训练集、验证集和测试集都收集自同一台设备,所以该模型目前在该CT机型上的表现令人满意。对于人工智能模型来讲,具有较好的鲁棒性是至关重要的。我们已在多中心进一步扩大多样化的训练集。其次,深度学习模型构建中普遍存在数据量不足的问题,在我们的研究中也不例外。利用少量训练数据开发高性能模型是具有挑战性的,因为它限制了复杂神经网络的应用,从而影响了模型的稳定性和有效性。第三,研究还需进行外部验证,以进一步客观评估模型的超分辨性能和生成图像的组学特征稳定性。
总之,我们提出的深度学习图像超高分辨率模型显著提高了512×512 矩阵HRCT 图像质量,较为接近1 024×1 024 矩阵UHRCT 图像质量水平,且生成图像的组学特征较为稳定,基于深度学习的超高分辨胸部CT 图像的影像组学研究将来有望在肺结节良恶性早期诊断、肺癌分期、预后及疗效评估中发挥重要作用。