基于深度学习的肺结节检测算法对不同大小肺结节的检出效果
2019-12-19唐丽丽于明川那曼丽
王 娟,唐丽丽,于明川,那曼丽,张 滨
(北京大学首钢医院影像科,北京 100144)
肺癌是癌症相关死亡的主要原因[1]。2012年全球约有159万人死于肺癌[2]。据我国国家癌症中心统计,2014年我国肺癌发病率和死亡率均居恶性肿瘤首位,其中新发病例约78.1万,死亡病例约62.6万[3]。约75%肺癌患者就诊时已是局部晚期或出现远处转移[4],患者平均5年生存率仅约18%[5]。
肺癌筛查有利于早期检测肿瘤,提高总体治愈率,同时能在更小范围内手术切除病变[6]。美国国家肺癌筛查试验(National Lung Screening Trial, NLST)研究[7]表明,相比单视角的X线胸片,接受低剂量CT筛查的群体肺癌死亡率下降20%。目前低剂量CT逐渐成为各国筛查肺癌的主要手段,但由于筛查人群巨大而缺乏有经验的影像学医师,使得普及肺癌筛查面临巨大挑战[8]。
近年来,以深度学习(deep learning, DL)为内核的人工智能方法在计算机视觉任务方面取得了突破性进展,并逐渐渗透到医学影像分析的各个领域[9]。研究[10-11]表明,DL模型已在低剂量CT肺结节检测中展现出较高的精度,临床应用潜力巨大。然而这类检测模型并非完美,预测结果仍会出现偏差。本研究旨在探讨DL模型对不同大小肺结节的检出效果。
1 资料与方法
1.1 一般资料 回顾性分析2019年3—5月于我院接受胸部CT平扫的344例肺结节患者,男218例,女126例,年龄25~68岁,平均(45.6±19.3)岁。排除图像质量差、存在弥漫性病变及多发结节(10个及以上)患者。
1.2 仪器与方法
1.2.1 CT检查 采用Toshiba Aquilion One(重建卷积核包括FC03/FC13/FC51)、Philips Ingenuity Core 128(重建卷积核包括B/YA/YB)多排螺旋CT。嘱患者仰卧,扫描范围自肺尖至肺底。扫描参数:固定管电压120 kV,管电流为自动毫安,层厚1 mm,矩阵512×512,图像分辨率0.782 mm×0.782 mm。
1.2.2 肺结节诊断及结节大小计算 由1名具有5~10年工作经验的影像科医师标注所有CT图像中的肺结节,并逐层勾勒肺结节轮廓;由另1名高年资(工作10~15年)影像科医师对上述初标结果进行审核,并将复审结果作为医师最终临床诊断结果。
由计算机根据医师的边缘勾勒自动计算得到肺结节大小。计算流程:①于轴位图像上找到肺结节最大层面(面积最大);②在最大层面上测量结节最长径(距离最远的2个轮廓点之间的距离)和最短径(结节内垂直于长径的最长距离);③以最长径和最短径的平均值作为结节大小,精确到小数点后2位,单位为mm。
1.2.3 DL模型(以下称模型)检测肺结节 将CT资料传至深睿医疗研发的Dr.Wise肺结节辅助诊断系统,以深度卷积神经网络为基础,配合特征金字塔和图像金字塔,融合全局结构和局部细节信息,自动检测结节大小。
1.3 统计学分析 采用Scipy统计分析软件。以χ2检验比较模型对不同大小肺结节的检出率(相对于医师诊断结果)。P<0.05为差异有统计学意义。
2 结果
344份CT图像中,医师共诊断710个0~30 mm肺结节,其中0~4 mm者93个(93/710,13.10%),0~5 mm者264个(264/710,37.18%),0~6 mm者425个(425/710,59.86%),5~10 mm者389个(389/710,54.79%),>10~20 mm者56个(56/710,7.89%),>20~30 mm者1个(1/710,0.14%)。根据结节密度,其中536个(536/710,75.49%)为实性结节,54个(54/710,7.61%)为纯磨玻璃结节,10个(10/710,1.41%)部分实性结节,110个(110/710,15.49%)为钙化结节。
DL检测模型共检出2 495个候选肺结节,相对于医师诊断结果,模型诊断真阳性675个(图1~3),模型对结节的检出率为95.07%(675/710),阳性预测值为27.05%(675/2 495)。模型对不同大小肺结节的检出率如下:0~4 mm者82.80%(77/93),0~5 mm者90.15%(238/264),0~6 mm者92.94%(395/425),5~10 mm者97.94%(381/389),10~20 mm者98.21%(55/56),20~30 mm组100%(1/1)。模型对0~4 mm、0~5 mm、0~6 mm、5~10 mm、10~20 mm、20~30 mm肺结节的检出率差异无统计学意义(χ2=21.72,P>0.05)。
为进一步确认模型中假阳性结节的具体分布,上述2名医师重新针对这些假阳性结节进行逐一复审。假阳性结节中,50.38%(917/1 820)为医师最初漏诊者(图4),32.53%(592/1 820)为血管断面,其余为局灶性胸膜增厚(164个)、斑片(73个)、条索(55个)、黏液栓(13个)、肺实变(4个)和肿块(2个)等,平均每例医师漏诊肺结节2.67个(917/344),血管断面的平均假阳性数为1.72个(593/344)。
图1 患者男,87岁,模型检出28 mm×27 mm部分实性结节(箭),为真阳性结节 图2 患者女,57岁,模型检出8 mm×7 mm磨玻璃结节(箭),为真阳性结节 图3 患者女,51岁,模型检出12 mm×12 mm实性结节(箭),为真阳性结节 图4 患者男,53岁,模型检出2 mm×2 mm实性结节(箭),为假阴性结节(医师未检出)
3 讨论
基于DL的肺结节检测模型预测精度高,低剂量CT对于0~30 mm肺结节的检出敏感度达到95.07%。本研究发现检测模型的预测精度不受肺结节大小的影响,证实了DL检测模型在肺结节检测中的一致性。在中华医学会肺癌临床诊疗指南2018版[3]中,以5 mm作为阳性肺结节的分界值;在2005版Fleishner指南[12]中,将4 mm作为肺结节随访的分界线,在其2013版[13]中,将此分界线提高到5 mm,在2017版[14]中进一步将其提高到6 mm。本研究结果表明,临床上不管使用哪种诊断标准,基于DL的肺结节检测方法均表现出良好的泛化性能。
除肺结节大小以外,影响检测模型效果的因素还有很多。既往计算机辅助诊断研究观察图像采集参数对于类似肺结节检测模型的影响,证实DL对肺结节检出效果的一致性良好。Den Harder等[15]前瞻性纳入25例肺结节随访患者,分别进行4种剂量(45%、60%、75%和100%的标准管电流)CT扫描,并以3种方式(FBP、iDose4及IMR3)进行重建,发现3种重建方式下计算机辅助诊断对于4 mm以上肺结节的检出率几乎相当,但假阳性率方面,最低剂量下的FBP优于iDose4和IMR3。Takahashi等[16]前瞻性观察55例肺结节患者,分别进行常规剂量(120 kV)及低剂量(100 kV)CT扫描,结果显示计算机辅助诊断在常规剂量下获得的结节检出敏感度为76%,低剂量下敏感度为71%。
进一步分析本研究中模型检出的假阳性肺结节,其中50.38%(917/1 820)为医师初次诊断漏检的肺结节,提示医师和辅助诊断系统可互相补充、各取所长;临床工作中,判断肿瘤肺转移时,检出微小转移灶对诊断及治疗均具有重要意义,此时辅助诊断系统能够高效帮助医师减少漏诊微小转移灶;但另一方面,引入DL可能增加过度诊断的概率。DL系统会额外发现很多被医师漏掉的肺结节,普通筛查人群中这些肺结节大多为良性,即使是恶性肺结节,未获发现也不影响患者终生发病率和死亡率[17],故过度诊断是DL肺结节检测模型实现大规模临床应用前亟待解决的问题。本研究中医师漏诊的大多是5 mm以下微小肺结节,对此中华医学会指南[3]建议处理的方式是长期随访,可能对患者造成较大心理负担,以至于采取不必要的激进治疗方案。此外,人工智能方法检出的过多肺结节也可能增加医师的工作量。
本研究的局限性:样本量相对不足,未能定量评估其他因素(机型/重建算法等)以及医师标注误差对于结果的影响,有待进一步完善。