肺结节AI辅助检测产品的临床应用效果及影响因素分析概述
2021-04-03王泽华
王泽华
国家药品监督管理局 医疗器械技术审评中心,北京 100081
引言
肺癌严重威胁人类生命健康,其发病率和病死率居所有恶性肿瘤的首位[1-4]。根据美国国家肺癌筛查试验结果,肺癌患者中有35%是10 mm以下的肺结节,肺结节筛查可使肺癌病死率下降20%[5-6],因此对肺结节的早检测、早诊断及早治疗是降低肺癌死亡率的重要方法。目前临床上对于肺结节检测工作在实践中面临诸多问题的普及效果有待提升。近年来,计算机辅助检测(Computer-Aided Detection,CADe)软件技术发展迅速,临床上逐步使用人工智能(Artificial Intelligence,AI)技术辅助医生进行肺结节检测。本文重点对国内外获批的肺结节AI产品的临床应用效果及研究进展进行简要综述。
1 肺结节的定义、分类及检测现状
肺结节影像学表现为直径不超过30 mm的局灶性、类圆形、密度增高的阴影[7-9]。肺结节的分类有多种方法,临床上常规根据其具体位置、密度等方面进行分类。从空间位置上划分,可以分为孤立性肺结节、近胸腔内壁肺结节和近血管肺结节[10-11]。按影像学密度划分,孤立型肺结节可分为实性和亚实性结节,亚实性结节又可分为磨玻璃结节(非实性)和混杂性肺结节(部分实性)[12]。
目前对于肺结节检测的临床实践中存在诸多困难:① 医师资源不足,工作压力较大。据统计我国医学影像数据年增长率明显高于医师数量的增长,临床医师面对较大工作压力[13];② 筛查检测的准确率有进一步改进的空间。有研究报道影像科医师肺结节检出率仅为59.1%[14],对美国放射医师肺结节检测的研究发现首诊错误率高达30%左右[15]。疲劳被认为可能是导致临床上出现肺结节检测错误的主要因素,其他因素还可能包括医师基础知识和临床经验不足[16],以及肺结节在其形态、灰度等方面的复杂性[17]等。尤其是基于深度学习技术的相关医疗器械产品可从胸部CT影像中检出肺结节,相关研究结果显示其可提高肺结节的检出率、准确度和临床医师的工作效率[18-23]。
2 肺结节AI辅助检测产品上市前临床试验情况
2.1 临床试验设计类型及评价指标
肺结节辅助检测产品一般可选择平行对照或多病例多阅片者(Multiple Reader Multiple Case,MRMC)的设计,FDA的CADe指南[24]对此类CADe软件要求了MRMC的试验设计。有效性指标常选择固有诊断准确度指标,例如灵敏度、特异度、ROC或其衍生曲线(FROC、LROC、AFROC等),部分研究中还设置了非固有准确度指标,例如阳性/阴性预测值、检出率等;还可考虑时间效率、诊断准确率增益率、诊断平均时间增益率、软件易用性/可操作性评价、软件稳定性等。安全性指标一般可包括器械故障、不良事件、严重不良事件等。试验报告一般还会给出根据结节大小、密度类型等方面划分的亚组的统计数据。
2.2 研究对象
针对临床试验受试病例,可以基于定义明确的入选和排除标准,前瞻性地收集患者数据或采用临床已有数据,入组人群应当与适用范围相匹配。基于临床已有数据的临床试验应当在设计时考虑并必须严格控制偏倚。例如纳入病例独立于申报产品或前代产品开发所用病例,以及连续入组符合或随机抽样入组符合入排标准的病例等。需要注意的是,除非有充分证据证明目标疾病同一患者不同部位、不同时期、双侧器官的诊断结果间具有独立性,否则不在一项临床试验中同时入组同一病例的多组数据。
由于阅片者表现的变异度及其与患者样本变异度和诊断方法(即AI辅助器械)之间的交互,某些情况下还需将阅片者列入研究对象。当把阅片者列为研究对象之一时,需要考虑阅片者选择偏倚、评阅偏倚和阅片顺序偏倚。如可考虑采用交叉或部分交叉阅片设计,交叉设计中还可根据相关领域记忆曲线的研究设置合理的洗脱期。FDA的相关文件认为10名以上的阅片者[25]可较好的控制阅片者选择偏倚、评阅偏倚,并且有文献报道交叉设计的典型洗脱期一般为4~6周[26]。
2.3 金标准及其他考虑
考虑采用高年资医师组成的阅片专家组综合意见为金标准,专家组培训时间和接受标准宜显著高于试验组。采用专家组评阅时还需考虑合并偏倚的控制,金标准独立于待研究的诊断方法可以减少偏倚:① 提供给专家组的待评阅数据需不包含AI标记结果;② 对于样本量非常大或影像评阅耗时大的研究,也可将包含和不包含AI辅助标记的结果同时提供给专家组,但两组结果是否采用AI辅助需对专家组设盲,由专家组自行开展综合评阅。
样本量根据产品预期性能、试验设计类型、评价指标、界值差异等经统计学计算合理设置,无固定的下限要求。此外,肺结节辅助检测产品中除主要的肺结节辅助检测功能外,还可能包括三维重建、尺寸测量、CT值计算等非辅助决策类软件功能,这些功能可根据《医疗器械临床评价技术指导原则》提交相应临床评价资料,也可在临床试验中一并予以评价。
3 肺结节AI辅助检测临床应用、检测准确度及影响因素
3.1 肺结节AI辅助检测的临床应用
目前肺结节AI辅助检测是以计算机程序或工具的形式,为医学影像提供较为稳定可靠的诊断参考。由于CT是一种非常有效的检查肺部结节病灶的影像检查方式,所以许多基于CT肺部图像、运用AI技术的肺结节AI医学辅助检测设备相继诞生[8,10-11,27-30]。这些设备或工具的通用工作流程为图像预处理、检测并分割病灶、标记病灶、获取病灶位置大小等形态学特征等,最终得出参考性意见。这一自动化流程能够在一定程度上提升病灶的检出率,减少影像医师的工作强度,但仍需要医师对结节进行临床确认。
3.2 肺结节AI辅助检测的准确度
根据对现有临床研究结果的调研,中、美等主要监管机构批准的肺结节AI辅助检测产品可以提升临床上肺结节的检出准确度。目前,报道的临床研究多以单组为主,样本量普遍不大,单一研究一般不超过200例,“金标准”常以单一专家或高年资医师的勾画结果为准。
目前肺结节AI辅助检测的准确度文献报道的结果变异度较大,但总体而言,相较于医生独立检测,有AI辅助的检测准确度会有明显提升。胡琼洁等[13]研究显示,实习医生使用AI辅助阅片的敏感性(67.36%)显著优于不使用AI辅助的结果(40.83%)。Lo等[31]的研究中使用AI辅助检测软件将检测的灵敏度从64.5%提高到80.0%,同时将解释时间缩短了26%。王娟等[32]的试验结果为AI辅助下临床医师进行阅片的检测准确度可达95.07%,且软件检出的假阳性结节中,50.38%为医师最初诊断漏诊者。另一些文献中,针对多样化的患者人群、使用医师、图像分辨率、结节密度类型、位置、尺寸等方面的情况进行统计分析,报道了70%~97%的敏感性或准确性,医师独立阅片的敏感性或准确性水平则一般在约40%~80%[14,16-17,33-43]。
3.3 肺结节AI辅助检测的影响因素
现有研究较为关注辐射剂量、管电压、图像重建方法、图像分辨率、结节位置、大小、密度类型、使用医师水平和状态等因素是否可能对AI辅助检测肺结节的准确度产生影响,可分为以下3个部分进行阐述。
(1)影像检查方面。从辐射剂量、管电压、图像重建方法等方面看,目前研究结果显示相关影响组间没有统计学差异。如辐射剂量,Hein等[44]比较了5 mAs超低剂量CT和175 mAs标准剂量CT的AI辅助检测诊断准确度,两者间没有统计学差异。管电压方面,Bodelle等[45]研究中基于70 kV和100 kV影像,肺结节辅助检测的敏感性为94.7%和92.4%,两者间没有统计学差异。对于图像重建方法的分析,曹源等[37]比较了不同重建算法(包括滤波反投影法与多等级的迭代重建算法)获取的CT影像的AI肺结节辅助检测准确度,得出了滤波反投影法检测假阳性率最低,效能最优的结论。刘珍娟等[46]分析了肺窗重建、纵隔重建、骨窗重建等重建算法获得的CT影像,对于肺结节辅助检测准确度的影响,得到了在上述三种重建方法获得CT影像上准确度均较高,无统计学差异的结论。
(2)图像和病灶特征方面。从结节尺寸、密度类型、图像分辨率等方面看,现有研究暂无一致结论。如王娟等[32]研究得到了检测准确度不受肺结节尺寸影响的结论。Brown等[47]的研究显示,对于直径超过3 mm的肺结节,AI检测的敏感度可达100%,但对于直径不超过3 mm的检测敏感度则仅有70%左右。密度类型的分析上,胡志宇等[33]的研究结果显示AI辅助检测软件对实性结节、磨玻璃结节等的检出敏感性并无统计学的差异。Yanagawa等[43]研究了AI辅助检测磨玻璃结节的性能,敏感性为21%远低于放射科医师60%~80%的水平,认为AI对于磨玻璃结节的检测可能存在瓶颈。目前认为AI阅片图像质量是临床性能的关键因素之一,图像质量越高,检出效果一般越好,当图像质量太低时,医师与AI软件可能都无法进行正确判读。
(3)影像医师方面。从使用者(主要是影像医师)的水平和状态等方面看,综合软件算法原理、当前临床认知以及相关研究结果角度,存在较大可能对肺结节检测准确度产生影响。不同医师水平的结节检测准确度存在较大差别,叠加AI辅助阅片后这种差异可能有所缩小但不能消除,这也与当前研究结果以及FDA相关文件表述相一致。孙丹丹等[38]通过对比试验得出了,使用超高分辨率肺部 CT 图像进行 AI 辅助肺结节检测,敏感性明显高于常规高分辨率图像使用AI肺结节辅助软件,对高分辨率CT影像准确度更高的结论。杨尚文等[36]通过对比试验也得到了类似的结论。对于医师水平/状态,现有研究关注了医师的年资和疲劳状态,王亮等[41]的研究显示疲劳显著降低了放射科医师对肺结节的检测准确度。汪琼等[16]的试验结果显示采用AI辅助阅片的低年资医师检测的假阳性结节数仍较多,结果劣于高年资医师。
4 讨论
由于这几年来肺结节检测等医疗AI产品的高关注度,出现了许多关于肺结节AI辅助检测的研究文章[13-14,16,32-33,36-41],这些文章大部分是对此类产品的某一应用效能、某一应用场景或某一影响因素的研究,而缺少综述性的文章。明佳蕾等[48]调研了结节类型、位置、大小、形状、扫描及重建参数等因素对肺结节AI检出性能的影响,但其文章参考了许多国内外未获批产品的研究,而且影响因素分析覆盖面不够广,所以在结论上与本文也有一定的出入。本文以国内外获批的肺结节AI产品及其研究为主要依据,综合分析了该产品的临床应用效果及影响因素,更具有参考意义。
从目前的临床研究结果上看,使用AI辅助肺结节检测软件对于提升医师的检测准确度和工作效率可能具有一定的帮助,但提升效果可能因软件性能、使用者水平和状态、患者图像、结节类型等方面的差异而表现不同。从软件算法原理、当前临床认知以及相关研究结果角度看,图像分辨率、使用者水平和状态等因素更可能对肺结节检测准确度产生影响,在相关临床研究或对AI软件性能评价时,需考虑对变量的控制或开展亚组研究。尤其是文献报道的医生进行肺结节检测(独立阅片或在AI辅助下)的敏感度结果变异性较大,部分报道甚至可能有40%左右的差距,提示阅片者本身的变异度可能是肺结节辅助检测产品临床性能评价中需考虑的关键因素,在相关研究中考虑对该因素偏倚的控制可能是必要的。对于辐射剂量、管电压、结节位置,一些研究结果提示其对于肺结节辅助检测准确度的影响较小,在评价AI产品临床性能时,暂时不将其列为主要亚组研究因素可能是可行的策略。
现有的研究可能存在以下可进一步拓展的方面:① 对于结节大小、密度类型、图像重建方法等因素的影响,目前研究结果存在不一致,仍需更多的研究结果进行确认;② 现有的多数临床研究样本量有限,500例以上的研究结果较少,且报道的研究多采用单组设计,循证医学角度证据力度不完善,相关临床结果趋势的广泛适用性整体均需未来更多高质量研究结果确认;③ 对肺结节辅助检测临床表现的影响因素可能尚不全面,未来的研究可关注于当前研究较少的内容,如CT影像层厚、结节形状以及患者人群特征等方面是否可能也对结节检测产生影响。AI技术尚处于深入探索阶段,肺结节AI辅助检测产品也正在继续研发中,AI辅助产品的临床应用将会不断拓展完善,以及辅助检测的影响因素也会逐步被分析得清楚透明。未来将会调研更多的不断面世的肺结节AI辅助检测产品及其相关研究,在产品质量和数量都得到提升后,产品的概述研究才更具有参考价值和说明力度。