CT成像剂量对人工智能算法性能的影响分析
2020-06-09
中国食品药品检定研究院 医疗器械检定所,北京 102629
引言
近年来,人工智能算法在图像处理方面的研究进展迅速[1-3],推动医学影像分析的飞速发展,在医学影像的辅助探测、辅助诊断、辅助分诊等方面的应用也不断取得突破。在胸部CT方面,人工智能算法主要的预期用途包括肺结节的检出/分类/测量等[4-5],有助于为肺癌的早期筛查与诊断提供线索。我国肺癌的发病率高,防治压力大,对肺癌的早期筛查、早期诊断需要投入大量人力、财力和时间。人工智能算法有望大幅节省公共卫生投入,同时降低患者辐射风险,具有重要的现实意义和应用价值。
然而,我国幅员辽阔、地区差异和医疗水平差异显著,需要避免人工智能算法在不同地区、不同医院出现重大性能波动或“水土不服”的风险[6]。这需要对算法的鲁棒性进行考量,对造成算法性能波动的各种因素进行观测和分析,进而在研发阶段解决算法过拟合等问题,提升产品质量。
成像过程中的剂量是影响人工智能算法性能的重要潜在因素之一。一般来说,辐射剂量与CT图像质量和患者的辐射风险都有紧密联系,而临床对于辐射剂量没有统一要求。近几年来,我国大力推进肺癌高危人群进行胸部低剂量 CT(Low-Dose Computed Tomography,LDCT) 筛 查[7],与常规CT检查相比,LDCT的管电流仅为20~50 mAs,能够使患者所受的X射线照射剂量下降80%或更多,大大减少X射线对人体可能造成的损伤[8-9]。从人工阅片的角度来看,国内多个研究团队已经开展了LDCT诊断肺结节的研究[10-11],证明LDCT具备准确检出肺结节的可行性,也有国外研究表明[12],当肺结节直径>5 mm时,LDCT对其检出率与常规剂量CT之间的差异无统计学意义。从人工智能算法阅片的角度,成像剂量对于算法性能的影响尚不明确,有待研究。本文结合试验测量和仿真模拟,对此问题进行探讨。
1 试验方法
1.1 试验思路
目前,对于人工智能算法的性能评价多采用“黑盒”测试的方式,即向人工智能算法的输入端输入已知结果的数据,观察输出端给出的结果情况。研究辐射剂量对算法性能的影响,一种思路是招募同一批患者接受多次不同剂量的CT检查,得到一系列CT影像作为算法的输入,对比输出结果,但会对患者造成较大的辐射伤害。另一种思路是随机选取常规剂量和低剂量条件下的不同病例进行对照,但不同病例之间的肺结节数量、分布、类型都不尽相同,代表的人群和患病率难以一致。
基于以上考虑,本次试验的技术路线是在同一批常规剂量的临床CT影像上叠加噪声,模拟对应的低剂量CT影像,从而比对人工智能算法的处理结果,设计思路,见图1。
图1 试验思路
1.2 体模试验
模拟低剂量CT影像首先需要获取先验的图像噪声水平,因此本试验的第一步是通过体模试验采集噪声数据。
峰值信噪比(Peak Signal-To-Noise Ratio,PSNR)常用于评价图像的重建质量,是衡量图像噪声水平的客观标准[13],图像间的PSNR值越大,二者越相似。开展体模试验的目的正是要通过使用不同剂量对体模进行成像,计算系列影像间的PSNR值,为模拟仿真提供依据。在管电压为120 kV的设置下,使用64排CT对模拟人体躯干的组织等效固体水模(密度1.03 g/cm3)进行了不同管电流曝光条件(均采用肺算法)的拍摄,以230 mA管电流曝光图像作为参考,其他管电流曝光图像的PSNR值,见图2。
图2 不同管电流下水模影像的PSNR
1.3 仿真试验
选取113例管电流在200~300 mA间的常规剂量胸部CT影像作为原始影像,通过研究Chang等[14]和Li等[15]提出的DICOM图像处理方法,向原始影像中添加不同幅度的高斯白噪声,生成5组模拟影像,每组依然113例CT影像,分别计算各组的平均PSNR值(参比原始影像),结合体模试验的结果,确定模拟的管电流范围。将模拟影像输入肺结节辅助检测人工智能算法进行计算,观察召回率和精确度的变化。
召回率和精确度是评价肺结节辅助检测人工智能算法性能方面较为重要的两个指标,可以很好的反应人工智能算法在临床使用场景下性能的好坏。根据算法输出结节预测结果的方式,做如下定义:某一层预测中心点处于金标准结节内视为检出[16]。金标准中未被配对的结节,判为漏诊;预测结果中未被配对的结节,判为假阳。检出即算法检出的真肺结节,总数记为TP;假阳即算法检出的“假”肺结节,总数记为FP;漏诊即算法漏诊的真肺结节,总数记为FN。召回率和精确度的计算公式见公式(1)~(2):
2 试验结果
2.1 模拟影像PSNR情况
5组模拟影像的平均PSNR如图3所示,通过对比图2可知,本次模拟仿真生成影像的管电流范围至少包括10~150 mA,噪声水平是科学合理的。
图3 5组模拟影像的平均PSNR
选取1例CT影像的同一层进行人工观察,图像质量的变化如图4所示。
图4 5组模拟影像与原始影像的对比
2.2 人工智能算法测试结果变化情况
与原始影像的测试结果相比,测试模拟影像的召回率、精确度变化情况如图5所示。
对于PSNR越小的影像,人工智能算法性能的波动越大,进行归一化计算后,召回率相对下降的最大幅度是73.2%,精确度相对下降的最大幅度是70.2%,如此大的性能波动在临床使用过程中无疑会存在较大的潜在风险。说明成像剂量在影响图像质量的同时,能显著影响人工智能算法的性能,建议在研发阶段提高算法的泛化能力。通过分析输出结果中的像素坐标,我们可以进一步看到某一病例的具体结果,示例见图6,图6中左侧实线圆圈标出的是原始影像中人工智能算法检出的肺结节,右侧模拟影像中,同一结节依然可见(虚线圆圈标出),但并没有被检出,这也印证了算法总体性能指标的下降。
图5 召回率、精确度的变化
图6 原始影像和模拟影像中结节检出的变化
3 总结
本次试验通过数学物理方法,模拟生成了不同成像剂量下的肺部CT影像,使用这些模拟影像测试了人工智能算法的性能,总的来看,低剂量CT影像在图像质量方面有所下降,算法性能也出现了大幅下降,出现多个结节未被检出情况。未来人工智能算法的应用场景可能很大一部分是没有足够医师资源的基层医疗机构以及体检机构,相信随着LDCT的推广,这些基层医疗机构也将会是肺癌筛查的主要场所。建议各制造商在开发阶段能够提高低剂量CT影像在训练集中的比例,从而加强算法对于低剂量CT影像的表现,提高效率的同时更加保证有效性。同时,本次试验使用数学物理方法对现有数据集进行科学、合理的变换,生成符合临床真实情况的模拟数据,也是对客观评价人工智能算法性能的一次有益探索,为临床前质量评价提供了新思路。