基于多层螺旋CT图像的机器深度学习技术测量仿真胸部体模肺结节体积及长径的效果▲
2021-04-13张田宝王蔚霖朱亚男李正军周和平
张田宝 王蔚霖 潘 宁 朱亚男 李正军 周和平
(1 陕西省安康市中心医院影像中心,安康市 725300,电子邮箱:596709283@qq.com;2 北京推想科技有限公司,北京市 100085)
由于环境的污染、人口的增长和老龄化的加剧等诸多因素,肺癌患者数量正逐年攀升,2018年全球肿瘤统计结果显示,新发肺癌占所有新发肿瘤病例的11.6%,病死率约18.4%,已成为当前世界范围内发病率和病死率均居首位的恶性肿瘤,而我国每年因肺癌而死亡的人数高达62.6万[1]。因此,肺癌的早期诊断、准确鉴别及正确治疗对提高患者生存率有着非常重要的意义。
胸部CT检查在早期肺癌的检出与鉴别诊断方面均具有优势,其结节检出率是胸部X线的6倍,能清晰显示结节位置、大小及其生长特性,其中生长特性是鉴别肺结节良恶性的重要指标之一:良性结节往往生长缓慢,倍增时间较长,而恶性结节生长迅速,倍增时间较短。针对难定性的小结节,临床上通常采用低剂量CT定期随访观察结节的动态变化,尤其是结节长径和体积的改变[2],作为临床治疗方案选择的重要参考。CT图像层厚会影响肺结节的检出率,也会影响放射科医师判定结节大小和体积。有学者指出,薄层图像所测得的肺结节数值较厚层图像准确,但图像层厚是否会影响人工智能对肺结节检测的准确性还未见相关报道[3]。随着医学科学技术的飞速发展,人工智能应用于医疗影像已经是必然的趋势[4],目前计算机辅助诊断技术已逐步应用于临床,但该技术尚处在初步阶段,还存在很多不确定的因素需要探讨。因此,本研究通过多层螺旋CT扫描仿真胸部体模内肺结节,并利用人工智能技术分析不同重建层厚的CT图像,探讨机器深度学习检测仿真胸部体模肺结节长径及体积测量的准确性。
1 资料与方法
1.1 模型 (1)本研中使用专业仿真胸部体模(Multipurpose Chest Phantom N1“LUNGMAN”,日本京都Kagaku株式会社),长40 cm、宽43 cm、高48 cm,包括胸壁、脊椎、肋骨、肺、纵隔及肝脏等模拟器官及组织,见图1a。体模的软组织及合成骨骼材料对X射线的吸收率接近人体真实组织。(2)模拟肺结节(Simulated Tumors,日本京都Kagaku株式会社)共12枚,随机将结节散在放置于体模内双肺上、中、下叶,各个肺叶放置的结节数量、大小均随机,但保证每个肺叶都有人工肺结节。根据美国Fleischner 学会肺结节处理建议[5],直径小于4 mm的结节不属于阳性发现,因此本研究所使用的结节共有4种直径(5 mm、8 mm、10 mm、12 mm),每种直径的结节各3个,CT值分别为100 HU、-630 HU、-800 HU。为避免伪影干扰模拟肺结节被自然放置在体模内,未使用工具固定,根据公式V实际=(4/3)πr3计算得出结节实际体积。
图1 研究所使用的模型注:a为仿真胸部体模;b为模拟肺结节,其中A、B、C分别代表3种密度值的结节,A、B、C的CT密度值分别为100 HU、-630 HU、-800 HU,共5种直径(3 mm、5 mm、8 mm、10 mm、12 mm,但本研究中未使用直径为3 mm的结节)。
1.2 研究方法 采用GE公司Revolution 256排螺旋CT对仿真体模进行扫描,范围包括体模全肺组织(肺尖到后肋膈角)。扫描参数:管电压120 kV,采用自动管电流(80~350 mA),噪声指数=14,层厚/层间距为5 mm/5 mm,球管旋转速度0.28 s/r,准直器宽50 cm,矩阵512×512,视野为400×400 mm,螺距0.992 ∶1,扫描层厚设置为5 mm,自适应统计迭代重建图像重组设置为40%,肺窗(1 500 HU/-500 HU),图像重建层厚分别为0.625 mm、1.25 mm、2.5 mm。分别将DICOM图像上传至推想科技深度学习工作站,利用肺结节人工智能软件InferRead®CT肺部疾病检测这些肺结节,记录结节数目、长径 (最大直径)、体积(V测量)等信息 ,见图2。根据公式计算长径、体积测量的绝对错误率(absolute percentage error,APE):APE=(测量值-实际值)/实际值×100%。
图2 肺结节人工智能软件在不同方位识别肺结节注:c、d、e分别代表在水平位、冠状位及矢状位标注肺结节。
1.3 统计学分析 采用SPSS 20.0软件进行统计分析。符合正态分布的计量资料以(x±s)表示,多组间比较采用单因素方差分析,不符合正态分布的计量资料以[M(P25,P75)]表示,比较采用Kruskal-Wallis秩和检验。以P<0.05为差异有统计学意义。
2 结 果
在不同重建图像层厚下,肺结节的长径和体积APE差异均无统计学意义(均P>0.05),见表1。不同直径肺结节的长径和体积的APE差异均无统计学意义(均P>0.05),见表2。
表1 不同重建层厚图像肺结节长径、体积测量的APE比较[M(P25,P75),%]
表2 不同长径肺结节直径、体积测量的APE比较[M(P25,P75),%]
3 讨 论
肺癌是威胁人类健康和生命最常见的恶性肿瘤之一。肺内结节是肺癌的早期特征性表现,薄层CT的普及使得肺结节的检出率大大提高,但很多肺部疾病都会形成肺结节,例如结核、尘肺、炎症出血等[4]。因此,对于肺内的小结节性病灶的良恶性鉴别存在很大困难,导致部分恶性结节患者早期未得到有效治疗,而确诊时已处于癌症中晚期,错失最佳手术时机,治疗效果不佳,预后较差,严重影响患者生活质量。临床上针对难以定性的肺结节常采用CT随访观察结节的生长特性,如长径和体积的变化等,因此结节长径和体积测量的准确性可能对肺结节的诊断和治疗产生重大影响。然而,有学者利用传统自动化测量工具研究肺结节时发现,不同分析软件测出的肺结节长径有着显著差异,而体积却无明显差异[6]。因此,他们认为结节体积可能是评估肺结节生长特征更可靠的指标,而造成这种差异的原因是软件所设定的测量公式不同,测量长径选用的肺结节维度方向有所差异[6]。在本研究中,我们也发现对于直径>4 mm的肺结节,长径和体积APE比较差异无统计学意义(P>0.05),说明结节直径的变化对肺结节长径和体积的APE无显著影响。
早发现、早诊治可提高肺癌患者5年生存率及生活质量。高分辨率CT是目前肺结节检出与随访最有效的手段[7-8]。但高分辨CT数据量较大,明显增加检查图像数量及影像科医生的阅片负担,疲劳状态下很可能导致误判和漏诊[9]。应用计算机辅助诊断技术能够对CT图像进行初步筛查并标记可疑病灶,从而帮助影像科医生进行再次判别,减轻医生工作负担并提高诊断准确率[10-11]。随着大数据软件的开发应用、计算机深度学习算法的推动,人工智能可以从图像中读取到肉眼易于忽视的信息,从而提高医生对病灶的诊断准确率[12]。本研究利用规则的球体模拟肺结节,但测量结果跟结节真实值存在不同程度的差异,我们推测其原因可能为模拟的肺组织与真实胸部存在差异,仿真体模材料结构密度单一,而结节测量的精确度取决于结节与肺部结构及邻近正常组织(如支气管及血管)的紧密程度,紧邻肺结节且密度相似的结构可影响检测结果。本研究中,不同重建层厚下肺结节的长径和体积的APE差异均无统计学意义(均P>0.05),说明在不同重建层厚下人工智能对不同结节长径与体积的测量基本一致,分析原因可能是由于肺组织天然对比度高,使得肺内结构密度分辨率高,结节检测结果一致性好,故图像层厚对人工智能测量肺结节长径及体积没有显著影响。由此可见,在不同重建层厚下,人工智能软件对直径4 mm以上肺结节的测量结果较为可信,且2.5 mm层厚就能满足人工智能阅片需求。因此,在能够保证肺结节检测准确性的前提下,可加大图像层厚,以减少影像医师阅片数量,缩短阅片时间,缓解临床工作压力。
薄层CT扫描在肺结节检出方面具有非常高的敏感性,能提高早期肺癌诊断的准确性[13]。与人工智能阅片相比,医师肉眼阅片的漏诊率较高,但假阳性率较低,不易把一些增粗的支气管或血管束断面误判为肺内异常小结节。研究表明,人工智能检测肺结节假阳性率较高,尤其容易将小叶核心结构误诊,其他主要误诊原因包括增厚、扩张的细支气管和交叉、增粗、迂曲的血管影等[14-16]。因此,影像科医师仍然需要对人工智能的检测结果进行复查,做到人工阅片和计算机智能阅片相互补充[17],从而提高肺肿瘤早期诊断的准确率,指导临床医生选择正确的治疗方案,改善患者预后,延长患者存活时间,减轻家庭与社会的经济负担。
本研究仍存在不足之处:实验设计较为简单,数据量较少,最终结果可能受到一定程度影响,后续还需加大样本量进一步验证结论;虽然体模软组织及其合成骨骼材料对X射线的吸收率非常接近人体真实组织,但扫描体模得到的数据与临床实践还存在一定差距。
综上所述,对于直径>4 mm的肺结节,体积可能是机器深度学习软件测量肺结节时更可靠的指标。不同重建层厚对机器深度学习技术测量肺结节长径及体积的结果影响较小,因此采用人机协同阅片工作模式时,在能够保证肺结节检测准确性的前提下,可加大图像层厚以减少影像医师阅片数量,缓解临床工作压力。目前人工智能结合医学影像诊断模式处于初步探索阶段,虽然机器深度学习技术在肺结节的检测和分类的研究已取得不错的成就[18],但该技术还需要更进一步的训练、优化与提升[19]。当前的计算机智能医学影像技术在优化医师资源配置、缓解医疗资源紧张和提升临床诊疗水平方面已展现出巨大的潜力,但该领域还存在许多未知的因素,亟待学者们进一步地探索[20-21]。