基于深度学习的肺结节检测算法对亚实性结节的检出效果研究

2021-09-12黄文健国凤梅梁连英许海东通讯作者

影像研究与医学应用 2021年15期

黄文健，国凤梅，梁连英，许海东（通讯作者）

（中国科学院大学深圳医院<光明>医学影像科广东深圳 518106）

肺癌是世界上发病率与死亡率最高的癌症，肺结节是肺癌早期筛查时的重要影像学表现[1]。随着CT成像技术的发展与普及，胸部螺旋CT已经成为了肺癌早期筛查的重要手段之一。各临床指南一般针对非钙化结节设定随访路径，并分为实性结节与亚实性结节两类，亚实性结节进一步分为纯磨玻璃结节和部分实性结节，是随访的重点关注对象[2-6]。使用计算机图像处理技术进行肺结节检测[7]，亚实性结节的检出难度更大[8]，一直是重点课题。

近年来，由于人工智能技术尤其是深度学习技术[9]在图像识别处理领域中的广泛应用，以肺结节检测[10]为代表，基于深度学习的检测算法开始广泛进入实际临床场景。目前，对基于深度学习的检测算法对于亚实性结节检出效能的研究还较少，本文以此为课题展开研究，作为基于深度学习的临床辅助检测算法的可行性研究之一。

1 资料与方法

1.1 一般资料

病例来自2018年9月—2019年4月在我院行胸部CT检查的病人。剔除条件：（1）图像质量较差，以致影响肺结节判断的病例；（2）具有肺部间质性病变、肺结核或其他肺部弥漫性疾病的病例。为控制无关变量，入组的胸部CT影像均来自飞利浦iCT机型，管电压均为120 kV，管电流自适应，扫描参数均采用层厚1 mm、iDose4迭代水平2级、Y-Sharp滤波、1024重建矩阵、肺窗算法。病例数量251例，其中男154例，女97例，年龄区间12～87岁，中位年龄36岁。

1.2 结节分类

根据各临床指南[2-6]，对于非钙化结节，分为实性结节与亚实性结节，制定标准如下：

实性成分：CT显示圆形或类圆形密度增高影，其密度足以掩盖其中走行的血管和支气管影。

磨玻璃成分：CT显示边界清楚或不清楚的肺内密度增高影，但密度不足以掩盖其中走行的血管和支气管影。

亚实性结节：含磨玻璃成分的肺结节。根据其是否含有实性成分可以进一步分为：纯磨玻璃结节（图1）及部分实性结节（图2）。

图1 纯磨玻璃结节

图2 部分实性结节

1.3 实验流程

纳入研究的所有CT图像均由两位影像诊断医师进行独立双盲法标注。医生首先对符合标准的影像进行肺结节检测，记录结节位置及类别。存在判断不一致的情况，则交由主任医师进行仲裁，作为医生检出的结果。

基于深度学习的肺结节检测方法采用深睿医疗的Dr.Wise肺结节辅助诊断系统，检测算法由2D与3D深度卷积网络组成，对于每个结节检出，算法会输出一个长方体包围盒。由一位主任医师判断算法检出的结节与之前医生检出是否匹配。如果不匹配，则由此医生进行复审，判断其具体类别（例如是否是医生漏检结节）。

1.4 结节分组方法

我们对0～4 mm与4～30 mm两个范围的肺结节分别进行算法的检出效果评测。

0～4 mm组：临床指南认为不需要进行随访。

4～30 mm组：大部分临床指南中认为有一定随访价值的结节。

1.5 统计学分析

本次研究使用开源函数库Scipy1.0.0进行数据处理与统计。采用多个样本比较的秩和检验[11]，对医生检出的肺结节数量与算法检出的数量差异，医生检出的亚实性结节数量与算法检出的数量差异分别进行显著性分析，为差异有统计学意义。同时，本研究对算法检出与医生不一致的检出框进行复审，对复审结果进行统计分析。

2 结果

对基于深度学习的肺结节检测算法检出框与医生检出进行对比，然后对检出不一致的进行复审。算法总共输出1 047个长方体包围，剔除部分由条索、血管等造成的假阳性，确定结节723个。与医生检出匹配的有198个，经审核医生复审最终确定525个。

如表1所示，针对医生和算法检出的结节，进行分组，对不同的结节类型进行统计。算法检出均大于医生检出的结节数量。对于4～30 mm组与0～4 mm组，医生检出的结节总数与算法检出的结节总数之间的差异都具有统计学意义（P＜0.05）。亚实性结节和其他结节总数差异之间的也都具有统计学意义（P＜0.05）。其中，对于0～4 mm组，算法总共检出了553个结节，与医生检出匹配上的有74个，剩余的479个结节是审核医生对与医生不一致的检出框进行复审后得到。

表1 医生检出与算法检出的结节统计（例）

对医生检出的结节与对不一致的算法检出框进行复审得到的结节进行分析，就亚实性结节而言，如表2所示，医生检出的结节中亚实性结节的数量和占比均小于复审得到的结节，且差异具有统计学意义（P＜0.05）。而0～4 mm组的结节，医生检出结节数量和占比均明显小于复审得到的结节。

表2 医生检出的结节与复审得到的结节中亚实性结节的数量与占比

3 讨论

本研究对基于深度学习的肺结节检测算法在肺部CT上对亚实性结节的检出效果进行了研究。算法检出的亚实性结节数量、其他结节数量、结节总数均高于医生检出数量。将复审得到的结节中亚实性结节和0～4 mm小结节的数量和占比与医生检出结节对比，可以看出，复审得到的结节中亚实性结节的数量和占比都比较高，而0～4 mm小结节的数量和占比分别达到了479个和91.23%。

结节的性质类型判断是结节临床诊治的重要指标之一。亚实性结节的恶性的概率要显著高于实性结节[11],而且在IA期肺癌中的发生率明显高于良性组[12]。此外,亚实性结节的体积可以在很长一段时期不变，后开始成长，因此亚实性结节需要更长的随访时间[13]。亚实性结节都是肺癌筛查和随访的重点对象。亚实性结节的自动检出也一直是研究的热点，文献[5]介绍了对亚实性结节检出有一定作用的CAD系统，对纯磨玻璃结节的敏感性为53%，对部分实性结节的敏感性为73%。文献[6]介绍了一种基于特征工程的CAD系统，在平均每份CT有1个假阳的条件下对亚实性结节的敏感性达到了80%，敏感性水平较低。目前关于基于深度学习的检测算法对亚实性结节的检出效果的研究还较少，文献[14]主要针对人工智能软件对纯磨玻璃结节的长短径、最大截面积和体积等给出的定量测量值进行了定量分析。与文献一致，我们针对医生检出结节计算敏感性，本文所采用的算法敏感性要远高于之前的研究，对大于4 mm的亚实性肺结节的敏感性非常高（100%），对0～30 mm的亚实性肺结节也很高（96.55%）。符合临床上对亚实性结节检出的高要求。

另一方面，算法检出与医生检出不一致的检出框，在复审中被医生确认为结节的占50.14%，与其他假阳类型相比差异有统计学意义（P＜0.05）。剔除这部分后算法的检出框中非结节的数量为324个，平均1.29个/CT，数量较少，对医生提升工作效率有比较好的帮助。

对复审得到的结节进行分析，亚实性结节占比高于医生检出，具有统计学意义。显示出算法在辅助亚实性结节检出上有很大的潜力。另外，医生漏检结节中0～4 mm小结节的占比极大（91.23%），因为医生的职业习惯对小结节关注较少。但小结节也具有一定临床意义[15]，体现出算法的临床价值。

由于亚实性结节在所有结节中的占比较小，本文的研究样本量还不够大，且患者均为在我院进行CT扫描的病例，存在一定的选择偏差。由于结节的性质判定可能受到机型、层厚、管电压等变量影响，本文入组条件对大多数变量进行了限制。未来可以进行更大数据量，更广的数据来源，涵盖更多变量的研究工作。因条件限制，本文仅针对一种基于深度学习的肺结节检测系统进行了研究，未来可以针对不同的肺结节检测算法进行对比，以得出更具有普遍性的结论。

综上所述，基于深度学习的检测算法对于亚实性结节的检出同时具有高敏感性、低假阳性，对小结节的检出也有较大帮助，能切实减轻医生的工作负担和压力，让医生从冗杂低效的肺结节检测任务中解放出来，将更多的精力放在病变的鉴别诊断、MDT及与患者的沟通交流上，提升诊断水平和整体医疗环境。