人工智能与最大密度投影在CT肺磨玻璃结节筛查中的应用价值分析
2021-09-10张扬邱立军原小军陈强张海沙
张扬 邱立军 原小军 陈强 张海沙
【作者简介】张扬,男,内蒙古乌兰察布人,硕士研究生在读,主要从事影像诊断。
【通讯作者】邱立军,男,黑龙江哈尔滨人,硕士研究生导师,主任医师,主要从事影像诊断工作。
[摘要] 目的:探讨人工智能(AI)辅助诊断技术与最大密度投影(MIP)在CT肺磨玻璃结节(GGN)筛查中的临床应用价值。方法: 回顾性分析182 例体检发现肺部有磨玻璃结节的患者胸部CT,由2名低年资放射科医师共同对CT 1 mm薄层图像及8 mm MIP重建图像进行阅片并记录GGN,利用AI自动检测并记录GGN。利用卡方检验比较人工阅片、AI 及MIP对肺磨玻璃结节检出率差异,利用ROC曲线分别分析三种方法对各种大小GGN及总GGN的诊断效能,统计指标包括特异度、灵敏度、AUC、可信区间、约登指数及P。结果:共检出GGN 200个,检出率:AI>MIP>人工阅片,三组之间差异具有统计学意义(P<0.01)。<3 mm的GGN,共检出19个,检出率:AI>人工阅片>MIP ,三组之间差异具有统计学意义(P<0.01)。3~5 mm的GGN,共檢出106个,检出率:AI>MIP>人工阅片,三组之间差异具有统计学意义(P<0.01)。>5 mm的GGN,共检出75个,检出率:AI=人工阅片>MIP,三组之间差异无统计学意义(P>0.05)。对于<3mm的GGN,AI的诊断效能最高,对于3~5 mm的GGN,AI的诊断效能亦最高,对于>5 mm的GGN中,MIP的诊断效能最高。结论:对于≤5mm的GGN,MIP的检出效能明显低于AI,对于>5mm的GGN,MIP的检出效能优于AI,AI和MIP的合理应用能有效提高肺GGN的检出,减轻放射科医师的工作强度,减少漏诊,可在临床应用中广泛推广。
[关键词] 人工阅片;人工智能;最大密度投影;肺磨玻璃结节;筛查
【基金项目】包头市科技计划项目(编号:2020Z1008-1)
肺癌是我国发病率和死亡率最高的恶性肿瘤,由于早期临床表现多并不明显,大多数患者发现时已处于中晚期,即使通过手术及放化疗治疗,患者的病死率依然很高。因此,如果能够对肺癌进行早期筛查、早期发现、早期诊断,就能有效地提高患者的生存率,改善患者的预后及生存质量。一些研究显示[1-3]:磨玻璃结节(Ground glass nodule, GGN)往往是肺癌的早期表现形式。CT常规筛查GGN的手段主要有人工阅片、人工智能(Artificial Intelligence, AI)阅片及最大密度投影(Maximal intensity projection, MIP),然而这三种方法对于不同大小GGN的诊断效能目前尚不明确。本研究通过对体检患者筛查出的GGN进行回顾性分析,探讨人工阅片、AI和MIP对于GGN的诊断价值。
1. 资料与方法
1.1 研究对象:选择2020年6月至2020年11月在本院体检CT发现存在肺磨玻璃结节的患者。病例纳入标准:①扫描范围包括整个胸廓;②年龄30~80岁。病例排除标准:①有呼吸运动伪影、金属伪影以及明显心脏搏动伪影;②双肺有大片实变影或肺不张;③经病理证实有原发恶性肿瘤或肺部肿瘤病史者。
1.2 CT检查方法:所有患者的胸部CT扫描均在飞利浦Brilliance 256层iCT完成。检查时受检者采取仰卧位,双臂上举,扫描范围从肺尖至后肋膈角尖端肺底水平,患者在深吸气末单次屏气完成扫描。扫描参数:管电压120 KV,管电流80 mA,螺距0.938,重建矩阵512×512,图像重建层厚1 mm,层距1 mm。
1.3 CT图像分析:(1)人工阅片诊断GGN:由2名低年资(从业时间分别为2年和3年)影像医师共同对1 mm薄层图像进行阅片,每组图像的窗宽1500 Hu,窗位-700 Hu[4-5],GGN的诊断结果根据2人的一致意见获得(图1A)。(2)MIP诊断GGN:将1 mm薄扫图像上传至飞利浦星云工作站,进行8 mm层厚的MIP重建,并由2名低年资影像医师按照1 mm薄扫图像阅片的原则进行MIP重建图像阅片,所得结果根据2人的一致意见获得(图1B)。(3)AI诊断GGN:将所有病例的CT薄层图像上传至AI系统(InferRead CT Lung version 4.0.0.21,推想医疗科技公司),并用AI系统对每一例图像进行识别及标记,将AI系统标记的GGN按大小进行记录(图1C)。(4)GGN金标准:由2名从事放射诊断工作15年以上的高年资放射诊断医师组成诊断小组,两人共同评估低年资医师记录的所有病灶及AI系统检出的可疑病灶,在两人意见统一后,将每个被检测到的病灶归类为真阳性GGN及假阳性GGN,并记录每个真阳性GGN的大小。
A, 人工阅片检出GGN;B,MIP检出GGN; C,AI检出GGN
1.4 统计学方法:各研究方法对GGN的检出率使用公式“检出率=该方法GGN检出个数/金标准GGN检出个数×100%”计算,检出率以百分数形式表示。采用SPSS 22.0软件包进行数据的统计学分析,采用卡方检验进行各研究方法检出率的比较,根据各研究方法对GGN的检出情况,绘制受试者工作特征(Receiver operator characteristic, ROC)曲线,以曲线下面积(Area under ROC curve, AUC)和约登指数评价各检验方法的效能。当AUC≤0.7时,认为检验效能较低,当0.7 2. 结果 2.1 本研究共纳入182例研究对象,平均年龄55岁,男女比例为1: 0.8。 2.2 共检出GGN 200个,对于人工阅片、AI和MIP三种筛查方法,AI的检出率最高为95%,其次为MIP检出率为84%,而人工阅片检出率较低为74%,三组之间差异具有统计学意义(P<0.001)。对于<3 mm的GGN,共检出19个,AI的检出率最高为94%,而人工阅片和MIP的检出率较低,分别为47%和42%,三组之间差异具有统计学意义(P<0.01)。对于3~5 mm的GGN,共检出106个,AI对GGN的检出率最高为94%,其次为MIP,检出率为85%,而人工阅片检出率最低,为63%,三组之间差异具有统计学意义(P<0.01)。对于>5 mm的GGN,金标准共检出75个,AI与人工阅片的检出率均为96%,MIP的检出率为93%,三组之间差异无统计学意义(P=0.682,表1)。 2.3 人工阅片、AI和MIP对GGN的诊断效能:(1)对总GGN的诊断效能:通过对人工阅片、AI和MIP检出GGN的ROC曲线分析(图2),发现AI对GGN的诊断效能最高(AUC=0.705, 95%CI: 0.646-0.765),其敏感度和特异度分别为95%和46.1%,而人工阅片(AUC=0.459, 95%CI: 0.397-0.520)和MIP(AUC=0.587, 95%CI: 0.524-0.649)的診断效能均较AI低。(2)对<3 mm GGN的诊断效能:AI的诊断效能最高(AUC=0.759, 95%CI: 0.606-0.912),其敏感度和特异度分别为94.7%和57.1%,而人工阅片(AUC=0.38, 95%CI: 0.203-0.556)和MIP(AUC=0.256, 95%CI: 0.096-0.415)的诊断效能均较AI低。(3)对3~5 mm GGN的诊断效能:AI的诊断效能最高(AUC=0.725, 95%CI: 0.646-0.804),其敏感度和特异度分别为94.3%和50.6%,而人工阅片(AUC=0.387, 95%CI: 0.306-0.469)和MIP(AUC=0.606, 95%CI: 0.522-0.691)的诊断效能均较AI低。(4)对>5 mm GGN的诊断效能:MIP的诊断效能最高(AUC=0.664, 95%CI: 0.556-0.772),其敏感度和特异度分别为93.3%和39.5%,而人工阅片(AUC=0.62, 95%CI: 0.509-0.730)和AI(AUC=0.643, 95%CI: 0.533-0.752)的诊断效能均较MIP低(表2)。 3. 讨论 肺癌早期的主要表现形式是肺结节,有研究[6]统计,体检中GGN的总检出率为1.19%,在检出的GGN 中纯磨玻璃结节占比为85.95%。而持续存在的GGN与癌前病变或肺腺癌具有高度相关性[1-2],因此对于肺结节尤其是GGN的检测与诊断具有重要的临床意义。 CT容积扫描提供了大量的薄层图像,提高了空间分辨率的同时提高了检测肺小结节的能力,但是由于图像层面太多,影像科医生阅读大量的图像会产生视觉疲劳,容易遗漏小结节,尤其是微小结节和磨玻璃密度结节。AI的出现不仅大大降低了肺结节的漏诊率,还充分地解放了放射科医师的工作负担。但是AI也有许多不足之处,如对微小结节的检出效能不高以及假阳性率过高。MIP也是肺结节筛查的有效手段,它是通过计算原始图像中密度最大的像素,然后运用透视法将这些密度最大的像素投影到一个平面上形成重建图像[7]。MIP的优越性在于能比薄层CT图像显示更长的血管段,能更好地显示小叶中心动脉,确定小叶中心和血管周围的病变,显著地提高GGN的显示能力。有研究表明,8 mm层厚重建的MIP 对于GGN的检出是最优的,如Kawel等[8]对5 mm、8 mm、10 mm 层厚MIP进行了比较,发现 8 mm层厚MIP重建发现肺结节明显优于5 mm、10 mm的重建层厚,所以本研究采用8 mm层厚MIP重建图像。 以往学者利用AI筛查GGN做了大量研究[9-11],也有学者研究MIP对GGN的应用价值 [12],但是在GGN的筛查中两者之间的对比分析研究却鲜有报道。所以本研究旨在对AI、MIP与人工阅片对肺磨玻璃密度结节的检测能力进行对比分析,以明确其应用价值,为临床合理应用提供参考。 本次研究结果显示,对于<3 mm及3~5 mm GGN,人工阅片的AUC 均<0.5,表明其诊断效率较低。这可能是由于医生在进行大量重复阅片过程中不可避免地产生视觉疲劳,从而导致了GGN的检出率明显降低;亦可能是由于GGN直径太小,难以被肉眼发现所致。对于<3 mm的GGN,MIP的AUC<0.5,则极有可能是由于GGN本身的性状所导致的,因为GGN在CT图像上表现为局部呈云雾状影,密度轻度增加,且不掩盖病灶内部的血管影[13],所以很难引起肉眼的察觉,再加上较长的血管段对于GGN的显示亦起到了遮盖的作用,导致MIP在<3 mm GGN中敏感度较低。然而,在3~5 mm 及>5 mm GGN中,MIP对于GGN 的检出效能明显提高,这种差异可能与较大直径GGN易被发现有关,也可能与其重建层厚有关,还需要进一步的探究。在<3 mm GGN中,AI组的敏感度远高于其它两组,表明AI 检出较小直径GGN的能力极强。在>5 mm GGN中,人工阅片、AI及MIP 三组之间的AUC及敏感度差异极小,这可能与GGN 直径较大,较易发现有关;也有可能是由于本研究所包含的此类GGN(75个)较少有关。 从结果可以看出,AI对于各种大小GGN 的检出率均最高,敏感度均达到了94%以上,然而Joseph 等[14]报道,目前的商业AI系统检出GGN 的敏感性还不够,这与本研究结果不符,可能与本实验所采用的标准有关,共识小组只分析了住院医师及AI 系统检出的可疑结节,并未进行独立阅片以发现两者都未发现的真阳性GGN;也可能由于不同的AI系统所采用的分割算法不同所致。而以人工阅片方式检出各种大小GGN的诊断效能均偏低,所以单纯的人工阅片不仅劳动强度巨大,其诊断效率还很低,MIP模式阅片及AI的出现,则极大地弥补了这一点,这对于影像医学的发展是大有裨益的。 本实验存在以下不足:首先由于本次试验发现的<3 mm GGN(19个)太少,对于此类GGN的检出效能判断还有待进一步佐证;其次,不同层厚MIP对于GGN的检出效果还有待探究;最后,本次研究的样本量尚小,需扩大样本量,以进一步对结果进行验证。 综上所述,对于≤5 mm GGN,MIP的检出效能明显低于AI,但是对于>5 mm GGN,MIP的检出效能则优于AI; AI在有效提高GGN检出效能的同时,大大地减轻了影像医师的工作强度,结合MIP技术及人工阅片,能精准判断GGN,值得在临床应用中广泛推广,但是AI也存在较大的局限性,需要进一步完善其算法,以进一步提高检出效率。 [参考文献] 1.秦福兵, 陆友金. 纯磨玻璃结节定量CT鉴别肺浸润性腺癌与浸润前病变和微浸润腺癌[J]. 中国医学计算机成像杂志, 2016, 22(1):22-26. 2.刁竹帅, 代月杰, 王国华, 等. HRCT肺纯磨玻璃结节影像表现与肺腺癌病理新分类的相关性分析[J]. 医学影像学杂志, 2019, 29(3):407-409, 424. 3.刘晓梅, 孙英杰, 甄鹏飞, 等. 低剂量MSCT对肺部磨玻璃结节的定性诊断[J]. 中国中西医结合影像学杂志, 2019, 17(2):124-126, 139. 4.MacMahon H, Naidich DP, Goo JM, et al. Guidelines for Management of Incidental Pulmonary Nodules Detected on CT images: From the Fleischner Society 2017[J]. Radiology, 2017, 284(1):228-243. 5.Yoo RE, Goo JM, Hwang EJ, et al. Retrospective assessment of interobserver agreement and accuracy in classifications and measurements in subsolid nodules with solid components less than 8mm: which window setting is better[J].Eur Radiol, 2017, 27(4):1369-1376. 6.马聪, 张伟华, 郭晓东, 等. 健康体检人群中肺磨玻璃密度结节检出率及影像特点[J].中华健康管理学杂志, 2015, 9( 2):124-126. 7.Napel S, Rubin GD, Jeffrey RB Jr. STS-MIP: a new reconstruction technique for the chest[J]. J Comput Assist Tomogr, 1993, 17:832-838. 8.Kawel N, Seifert B, Luetolf M, et al. Effect of slab thickness on the CT detection of pulmonary nodules: use of sliding thin-slab maximumintensity projection and volume rendering[J]. AJR Am J Roentgenol, 2009, 192 (5):1324-1329. 9.金文忠, 陸耀, 汪阳. 基于人工智能的胸部CT智能辅助诊断系统在LDCT数据集上的应用研究[J].中国医学计算机成像杂志, 2018, 24(5):373-377. 10.蔡雅倩, 张正华, 韩丹, 等. AI对肺磨玻璃结节筛查及定性的临床应用研究[J].放射学实践, 2019, 34(9):958-962. 11.孙炎冰, 陶广昱, 陈群慧, 等. 人工智能CT定量分析肺磨玻璃密度结节初探[J].中国医学计算机成像杂志, 2018, 24(5):383-387. 12. Li Wang-jia, Chu, Zhi-gang,Zhang, Yan, et al. Effect of Slab Thickness on the Detection of Pulmonary Nodules by Use of CT Maximum and Minimum Intensity Projection[J].AJR: American Journal of Roentgenology:Including Diagnostic Radiology, Radiation Oncology, Nuclear Medicine, Ultrasonography and Related Basic Sciences, 2019, 213(3):562-567. 13.Zhao, Chao, Yang, Yang,Shi, Jingyun, et al. High Discrepancy of Driver Mutations in Patients with NSCLC and Synchronous Multiple Lung Ground-Glass Nodules[J]. Journal of thoracic oncology: official publication of the International Association for the Study of Lung Cancer,2015,10(5):778-783. 14.Benzakoun J, Bommart S, Coste J, et al. Computer-aided diagnosis (CAD) of subsolid nodules: Evaluation of a commercial CAD system[J]. Eur J Radiol, 2016, 85(10):1728-1734. 包头医学院 内蒙古包头 014040 乌兰察布市第二医院 内蒙古乌兰察布 012000 内蒙古科技大学包头医学院第一附属医院 内蒙古包头 014010 上海市杨浦区控江医院 上海 200093