不同混合权重深度学习重建算法对低剂量CT扫描肺结节定量分析准确性的影响
2022-05-28邓蕾郭宝斌姚悦杨全新李晓会
邓蕾,郭宝斌,姚悦,杨全新,李晓会
西安交通大学第二附属医院 医学影像科,陕西 西安 710004
引言
低剂量CT(Low-Dose Computed Tomography,LDCT)扫描是早期肺癌筛查的有效手段。为了有效降低辐射剂量、最大程度保证图像质量,2020版中国肺癌筛查专家共识中推荐使用迭代重建技术进行LDCT扫描[1],但是通过优化重建算法而实现“更高图像质量、更低辐射剂量”的目标一直是学术和工业研究领域的热点。目前,已有多种新的图像重建技术应用于临床。然而,不同重建算法或同一重建算法的不同混合权重的应用会使胸部CT的图像质量存在变数。传统滤波反投影(Filtered Back Projection,FBP)算法无法得到足够清晰的图像质量,肺内结节的显示也受到影响[2]。体外实验表明,更高混合权重的多模型自适应统计迭代重建(Adaptive Statistical Iterative Reconstruction-Veo,ASiR-V)算法虽然降低了辐射剂量,但是肺结节自动测量的准确性也随之降低[3]。因此,在进行低剂量肺癌筛查时,如何优化重建算法进一步提高肺结节定量分析的准确率仍是临床工作面临的重要问题。最新研究发现,深度学习图像重建算法(Deep Learning Image Reconstruction,DLIR)可从海量数据中学习高级特征,较ASiR-V和FBP算法能够更为有效地提高图像质量[4-5]。基于此,本研究采用FBP、不同混合权重DLIR和ASiR-V这三种重建算法对内置肺结节的胸部体模进行LDCT扫描,进而探讨DLIR对肺结节定量分析的影响。
1 材料与方法
1.1 研究对象
仿真胸部体模(LUNGMAN)内放置9枚模拟圆形肺结节,其中磨玻璃结节6枚(直径12、10、8 mm结节各2枚,CT值为-800、-630 HU),实性结节3枚(直径分别为12、10、8 mm,CT值为100 HU),9枚结节随机放置在体模内的不同位置。
1.2 扫描设备及方法
采用256排 CT(Revolution CT,GE Healthcare)进行扫描;扫描条件:70 kV,Smart mA,转速 0.5 s/r,螺距0.992。分别采用7种算法对图像进行重建:低、中、高混合权重DLIR(DLIR-L、DLIR-M、DLIR-H);30%、50%、80%混合权重ASiR-V及FBP,重建层厚为0.625 mm。
1.3 数据测量
利用商用人工智能辅助诊断软件(Intelligent 4D Imaging System for Chest CT 5.5,依图医疗)对所有图像进行自动测量作为实验组,得到结节直径、CT值、SD值;由两名医师对所有图像进行独立分析并获得测量值作为对照组,将得到的结节直径、CT值、SD值以及同层面胸骨前方空气CT值及SD值与真实值进行对比,分别计算人工智能自动分析、手动测量的直径差异百分比、CT值差异百分比、信噪比(Signal to Noise Ratio,SNR)及对比噪声比(Contrast to Noise Ratio,CNR)。差异百分比=|(测量值-真实值)|/真实值×100%,SNR=CT结节/SD结节,CNR=|CT结节-CT空气|/SD空气。
1.4 质量控制
两名医师分别为中级、高级职称影像诊断医师,拥有超过5年以上相关工作经验。在不知道各组图像扫描及重建参数情况下,两医师采用独立盲法完成图像测量;取每个结节显示最大层面测量正交直径,取均值;感兴趣区(Region of Interest,ROI)放置尽可能覆盖整个结节,但距结节边缘距离需不小于1 mm。每个指标测量3遍取其平均值。
1.5 统计学分析
统计分析采用IBM SPSS statistic version 22.0软件进行,对两名医师所测各连续变量采用组内相关系数(Intraclass Correlation Coefficient,ICC)进行一致性评价,ICC低于0.4表示一致性较差,大于0.75表示一致性良好。此外,分别对未分类结节、磨玻璃结节组和实性结节组的各个指标进行单因素方差分析,检验水准α取0.05,检验水平为双侧。
2 结果
2.1 手动测量结果的一致性评价
对结节直径、CT值、SD值及结节同层面胸骨前方空气的CT值和SD值的测量,两名医师具有很好的一致性,组内相关系数ICC分别为0.943(结节直径)、1.0(CT值)、0.929(SD值)、0.957(空气CT值)和0.983(空气SD值),均P<0.001。最终取两名医师所测量各指标的均值作为后续研究对照。
2.2 手动测量与自动测量结果差异性比较
在算法未分类时或同一算法条件下,手动测量和自动测量的结节直径、CT值、SNR、CNR无显著统计学差异(P>0.05),见表1~2。但在DLIR算法条件下,与自动测量的直径差异百分比(4%)相比,手动测量的直径更接近真实值,直径差异百分比为2%(P<0.001);在CT值测量方面,自动测量的CT值差异百分比为9%,较手动测量(14%)更为准确(P<0.05)。而在ASiR-V算法条件下,手动测量的CT值较自动测量更接近真实值,CT值差异百分比:自动测量为22%,手动测量为16%(P<0.05)。
表1 自动测量与手动测量结果比较的P值
表2 不同重建算法条件下肺结节的自动和手动测量结果(±s)
表2 不同重建算法条件下肺结节的自动和手动测量结果(±s)
注:SN为实性结节,GGN为磨玻璃结节。
测量方式结节类型重建算法直径/mm直径差异百分比/%CT值/HU CT值差异百分比/%SNRCNR未分类自动测量结果DLIR 10.21 2 123.21 23 13.19 138.34 ASiR-V 10.07 1 169.75 61 4.37 34.13 FBP 10.16 2 163.44 63 2.21 27.33 GGN DLIR 9.92 4 -425.87 9 29.15 74.08 ASiR-V 9.97 2 -409.69 22 10.66 17.50 FBP 9.81 3 -397.74 24 6.13 13.11 SN DLIR 9.77 4 -700.42 3 37.13 41.94 ASiR-V 9.92 2 -694.90 3 13.80 9.18 FBP 9.63 4 -678.33 5 8.09 5.99未分类手动测量结果DLIR 9.93 2 -440.55 14 32.38 81.24 ASiR-V 10.03 2 -438.40 16 12.86 18.63 FBP 10.08 1 -435.74 18 7.15 12.28 SN DLIR 10.03 2 135.71 36 12.05 166.61 ASiR-V 10.06 1 144.06 44 2.78 38.95 FBP 10.11 2 150.39 50 1.55 25.45 DLIR 9.89 2 -778.66 2 42.54 38.55 ASiR-V 10.02 2 -729.63 2 17.90 8.47 FBP 10.08 1 -728.80 3 9.95 5.69 GGN
2.3 不同重建算法对自动测量结果的影响
2.3.1 结节大小
在未分类结节中,重建算法不同可能影响结节直径的测量,基于DLIR算法所得的直径差异百分比约为4%,与ASiR-V(2%)相比,DLIR算法可能导致结节自动测量与真实值之间产生具有统计学意义的偏差(P=0.001),但与FBP(3%)相比,差异无统计学意义(P>0.05)。在三种算法中,ASiR-V算法对人工智能肺结节直径测量的影响更小(表2~3)。无论是实性结节还是磨玻璃结节,同一算法的不同混合权重对结节的大小测量均无影响(直径差异百分比均P>0.05), 直径差异百分比不大于5%(表4)。
表3 不同重建算法对肺结节的自动、手动测量结果的影响P值
表4 不同重建算法条件下肺结节的自动测量结果(±s)
表4 不同重建算法条件下肺结节的自动测量结果(±s)
注:SN为实性结节,GGN为磨玻璃结节。
结节类型重建算法直径/mm直径差异百分比/%CT值/HU CT值差异百分比/%SNRCNR SN DLIR-L 10.21 3 123.23 23 9.78 88.68 DLIR-M 10.22 3 123.40 23 12.21 111.75 DLIR-H 10.19 2 123.01 23 17.57 214.61 ASiR-V-30%10.08 1 163.19 63 3.07 27.43 ASiR-V-50%10.10 1 154.07 54 3.19 31.47 ASiR-V-80%10.04 1 164.99 65 6.84 43.51 FBP 10.16 2 163.44 63 2.21 27.33 DLIR-L 9.74 5 -703.44 2 35.51 27.20 DLIR-M 9.94 4 -698.25 3 36.72 39.03 DLIR-H 9.63 4 -699.57 2 39.17 59.60 ASiR-V-30%9.85 1 -688.12 4 10.03 7.30 ASiR-V-50%9.88 2 -694.84 3 12.62 8.69 ASiR-V-80%10.03 2 -701.75 2 18.76 11.56 FBP 9.63 4 -678.33 5 8.09 6.00 GGN
2.3.2 结节CT值
在未分类结节中,重建算法不同对结节CT值的测量基本不产生影响,基于DLIR、ASiR-V和FBP算法所得CT值差异百分比分别为9%、22%和24%。然而,就实性结节而言,不同混合权重、不同重建算法可能对结节的CT值测量产生影响,基于DLIR算法所得的CT值差异百分比最小,显著低于ASiR-V和FBP所得CT值差异百分比(P<0.001、P=0.003),见表2~4。而在磨玻璃结节中,不同混合权重、不同重建算法对结节CT值测量的影响无统计学意义(P>0.05),见表1~3。
2.3.3 图像质量
无论实性结节还是磨玻璃结节,DLIR重建算法的SNR、CNR均高于ASiR-V和FBP算法,差异具有统计学意义(均有P<0.05),见表2~4。与其他不同算法或不同混合权重算法的图像相比,DLIR-H拥有最好的图像质量(均有P<0.05),见图 1~2。
图1 不同混合权重、不同重建算法对肺结节的手动测量及自动测量图像质量的影响
图2 不同混合权重、不同重建算法的图像质量
2.4 不同重建算法对手动测量结果的影响
2.4.1 结节大小
在未分类结节中,重建算法不同不会影响结节直径的手动测量,基于DLIR、ASiR-V和FBP算法所得的手动测量直径的差异百分比分别为2%、2%、1%,差异无统计学意义(P>0.05)。同一算法的不同混合权重对结节大小的手动测量无影响(直径差异百分比,均有P>0.05)。无论是实性结节还是磨玻璃结节,不同算法、不同混合权重对结节大小测量基本均无影响(均有P>0.05),直径差异百分比不大于3%,见表2~3和表5。
表5 不同重建算法条件下肺结节的手动测量结果(±s)
表5 不同重建算法条件下肺结节的手动测量结果(±s)
注:SN为实性结节,GGN为磨玻璃结节。
结节类型重建算法直径/mm直径差异百分比/%CT值/HU CT值差异百分比/%SNRCNR SN DLIR-L 9.99 3 136.15 36 9.01 109.27 DLIR-M 9.99 1 134.35 34 10.56 153.92 DLIR-H 10.11 1 136.64 37 16.55 236.64 ASiR-V-30%10.08 1 138.49 38 2.07 30.04 ASiR-V-50%10.13 1 145.27 45 2.54 36.46 ASiR-V-80% 9.97 1 148.43 48 3.71 50.35 FBP 10.11 2 150.39 53 1.55 25.45 DLIR-L 10.00 1 -729.96 3 37.34 24.80 DLIR-M 9.87 2 -728.95 2 44.47 33.83 DLIR-H 9.79 2 -727.12 2 45.82 57.02 ASiR-V-30% 9.95 2 -728.66 2 12.24 6.82 ASiR-V-50%10.09 2 -731.20 2 16.87 7.91 ASiR-V-80%10.01 1 -729.03 2 25.57 10.69 FBP 10.08 1 -728.80 3 9.95 5.69 GGN
2.4.2 结节CT值
在未分类结节中,重建算法不同对结节CT值的测量基本不产生影响,基于DLIR、ASiR-V和FBP算法所得CT值差异百分比分别为14%、16%和8%。然而,就实性结节而言,重建算法不同可能对结节的CT值测量产生影响,基于DLIR算法所得的CT值差异百分比最小,为36%,显著低于FBP所得CT值差异百分比55%(P=0.037),但与ASiR-V所得CT值差异百分比44%相比无明显统计学差异(P>0.05);而在磨玻璃结节中,三种算法对结节CT值测量的影响无统计学意义(P>0.05),见表2~3和表5。
2.4.3 图像质量
无论是实性结节还是磨玻璃结节,DLIR重建算法的SNR、CNR均高于ASiR-V和FBP算法,差异具有统计学意义(均有P<0.05),见表2~5。与其他不同算法或不同混合权重算法的图像相比,DLIR-H拥有最好的图像质量(均有P<0.05),见图1~2。如图1所示,无论实性结节还是磨玻璃结节,DLIR-H的SNR、CNR均最高,此条件下图像质量最佳。如图2所示,三种算法中,DLIR算法图像颗粒感小,图像质量高。同一算法中,混合权重高者颗粒感小,图像质量更高。然而,ASiR-V和FBP所示肺结节边界较DLIR算法更锐利。
3 讨论
本研究对比分析了在低剂量胸部CT扫描时,DLIR、ASiR-V和FBP三种不同重建算法对肺结节人工智能自动测量及手动测量准确性及图像质量的影响。结果表明,与FBP及ASiR-V重建算法相比,DLIR重建算法可以提高图像SNR和CNR,显著改善图像质量;且DLIR算法的混合权重越高,图像质量改善越明显;测量方式不同不会改变这一结果。但DLIR重建算法的使用可能影响人工智能对肺结节大小自动测量结果的准确性。
既往研究显示,迭代重建技术可以降低图像噪声、辐射剂量,故广泛应用于临床[6-9]。然而,使用迭代重建技术降低辐射剂量可能导致CT图像空间分辨率下降,造成病变漏诊或误诊[10-11]。近年来,随着人工智能的迅猛发展,机器学习显示出巨大优势。由GE Healthcare和Canon Medical system 共同研发的DLIR算法可在不改变噪声纹理或影响解剖结构的情况下,在抑制噪声的同时重建CT图像,极大地弥补了迭代重建算法的不足[4,12-15]。DLIR是一种以深度神经网络(Deep Neural Network,DNN)为特征的算法,该算法分别用高质量的FBP[TrueFidelityTM (TF),GE Healthcare]和基于模型的迭代重建(Model-Based Iterative Reconstruction,MBIR)数据集进行训练,以学习如何区分信号和噪声,从而提高图像质量[16]。DLIR采用了一种全新的影像链,它融合了过去几十年来使用FBP作为图像重建算法所积累的技术和临床知识[4]。DLIR将这些信息融入由数学方程层组成的DNN中,通过输入低剂量正弦图和图像数据离线训练DNN系数,并使用反向传播将输出图像与真实图像(相同数据的高剂量图像)进行比较;为了证明算法的稳定性,还采用大量未在训练阶段使用的体模和临床图像进行了广泛的验证。最终,基于DNN的DLIR引擎中的所有参数被固定下来。训练后的DLIR引擎能够生成等效于金标准的高质量DICOM图像——商业上称之为TrueFidelity CT(真理图像TM)。Benz等[17]的研究表明,与 ASiR-V相比,DLIR可显著降低冠状动脉CT成像的图像噪声,并在同等诊断准确度下提供更为卓越的图像质量。Akagi等[12]的研究结果显示,与基于混合模型的迭代重建技术相比,DLIR技术可显著改善图像质量、提高SNR。Greffier等[16]的一项基于模体的低剂量CT研究表明,随着DLIR混合权重的增加,图像噪声功率谱峰值降低,噪声减小,因此,DLIR-H较DLIR-L降噪效果更好。曾文等[18]通过对47例患者胸部CT平扫图像进行重建后发现,基于深度学习的模型能够有效减少胸部薄层CT图像的噪声,提高图像的质量。而在三种深度学习模型中,DLIR-H的降噪效能最佳。本研究也证实,DLIR重建算法的SNR及CNR(自动测量:29.15、74.08;手动测量:32.38、81.24)显著高于ASiR-V(自动测量:SNR 10.66、CNR 17.50;手动测量:SNR 12.86、CNR 18.63)和FBP算法(自动测量:SNR 6.13、CNR 13.11;手动测量:SNR 7.15、CNR 12.28);且与DLIR-L算法相比,DLIR-H拥有更高的SNR和CNR,图像质量改善明显。此外,这种影响在不同测量方式之间呈现出同质性,即图像质量的差异来源为算法,而非测量方式。
然而,与ASiR-V类似,具有高对比度背景特征(如肺)图像的局部非平稳噪声是DLIR不能够完全克服的。高对比度特征的边缘体素与单一图像区域中央的体素相比具有更多的不确定性,这种局部非平稳分布的噪声对临床表现的影响尚不清楚。但是,对于定量成像而言(如肺结节大小测量),尽管DLIR图像总体噪声水平低,但结节边缘附近的体素缺乏降噪,可能导致病灶大小测量的不确定性。Solomon等[19]的研究表明,DLIR可能不会提高体积成像任务或其他任何依赖于精确分割高对比度特征形状的成像任务的准确性或精确度。本研究结果显示,对于自动测量结果,ASiR-V算法的平均直径差异百分比最小(2%),而DLIR平均直径差异百分比为4%;对于手动测量结果而言,FBP算法拥有最小的平均直径差异百分比(1%),DLIR算法为2%;由此可见,在结节大小测量准确性方面,DLIR算法并未体现出明显优势。此外,在DLIR算法条件下,手动测量结节直径较自动测量更接近真实值(直径差异百分比:自动测量为4%,手动为2%,P<0.001),这可能说明基于高质量FBP训练的DLIR重建算法确实无法克服具有高对比度背景特征图像的局部非平稳噪声,使用人工智能软件自动分析DLIR重建图像时需更加谨慎。
不同重建算法对CT值可能产生影响,但这种影响并无规律性[20]。本研究结果显示,无论是自动测量还是手动测量,就实性结节而言,重建算法不同可能对结节的CT值测量产生影响,基于DLIR算法所得的CT值差异百分比最小,分别为23%(自动测量)和36%(手动测量),显著低于ASiR-V或FBP算法(自动测量:DLIRvs.ASiR-V,P<0.001;DLIRvs.FBP,P=0.003;手动测量:DLIRvs.ASiR-V,P>0.05;DLIRvs.FBP,P=0.037)。而在磨玻璃结节中,三种算法对结节CT值测量的影响无统计学意义。CT值是代表X射线穿过组织被吸收后的衰减值,与X射线照射能量相关,可随能量变化而发生变化,因此CT值是一个相对值,而非绝对值。虽然不同算法对实性结节CT值的自动测量有较大影响,但这种影响基本没有临床意义。
本研究的局限性:使用体模及模拟肺结节作为研究对象,模拟肺结节样本量偏少,研究结论的临床推广有待进一步考证;本研究未对DLIR算法肺结节检出的影响进行观察,后期拟扩大样本量进一步探索。
4 结论
与FBP和ASiR-V重建算法相比,DLIR算法可以显著提高图像质量,且DLIR混合权重越高,图像质量改善越明显,这种改善不受测量方式的影响;但是DLIR算法的应用有可能导致人工智能对肺结节大小自动测量的结果不够准确,这种影响是否有意义需在未来临床工作中进一步探索。