人工智能诊断冠心病效能的Meta分析
2023-05-18于燕乔史大卓曲华骆金文李圣耀王铭铭
于燕乔,史大卓,曲华,骆金文,李圣耀,王铭铭
冠状动脉粥样硬化性心脏病(冠心病,CAD)是全球最常见的心血管疾病之一。据统计,目前中国约有1100万的CAD患者[1],CAD的患病率和死亡率仍在快速攀升,已成为我国重大公共卫生问题,及时诊断并有效治疗具有重大意义。
目前临床中常将冠状动脉(冠脉)造影(CAG)作为诊断CAD和指导后续介入治疗的金标准[2]。然而,CAG依赖于医生的主观判断,主观性较强,且CAG主要关注冠脉的解剖学信息,聚焦于冠脉的狭窄程度,无法判断心肌缺血情况。因此,临床常在进行CAG的同时测算血流储备分数(FFR)。FFR聚焦于血流动力学,为狭窄的冠脉供血的最大血流量与所预测的理论上无狭窄动脉的最大血流量之比,目前临床已将FFR作为判断是否存在功能性心肌缺血的金标准[3]。然而,作为侵入性检查,CAG和FFR可能给患者造成一定痛苦,同时还存在检查耗时较长、对造影剂过敏的患者不适用等缺点。冠脉CT血管成像(CTA)是一种无创性检查,能够从多角度较清晰地观察细小冠脉分支。既往Meta分析结果证实,与FFR相比,CTA诊断CAD灵敏度约为90%~93%[4],但其特异度有限,误诊率较高,更适合作为排查疑似CAD患者的方法[5]。因此,需要一种能够同时满足全面、便捷、无创等要求的检查新方法。
近年来,人工智能(AI)凭借其高准确性、高可靠性、高处理速度的优势,已成为临床诊疗的得力工具。目前,AI在辅助疾病诊断方面已做出了一些贡献[6-8],其中,AI应用于肺癌[9]、深静脉血栓[10]等疾病领域的诊断价值已得到了初步验证。在心血管疾病方面,AI主要应用于通过计算机视觉技术,辅助处理、分析冠脉图像和心电图片段[11]。但目前仍缺乏AI技术诊断CAD效能相关方面的系统评价。因此,本研究采用Meta方法,评价AI技术在CAD中的诊断价值,以期为临床诊疗应用提供一定参考。
1 资料与方法
1.1 纳排和排除标准
1.1.1 研究类型国内外公开发表的AI诊断CAD的诊断性试验。
1.1.2 研究对象前瞻性研究中,研究对象应为疑似CAD的患者;回顾性研究中应包含CAD患者和非CAD患者。
1.1.3 纳入标准①采用AI进行冠心病诊断,具体AI方法不限;②语言限定为中英文;③文献中应说明该项研究诊断冠心病的方法及标准;④文献中应包含真阳性(TP)、假阳性(FP)、假阴性(FN)、真阴性(TN)的患者人数,或通过计算获得相应人数。
1.1.4 排除标准①无法获取全文或所需要的数据不全;②重复发表的文献。
1.2 检索策略计算机检索PubMed、EMbase、The Cochrane Library、万方、知网和维普等数据库,检索其中收录的国内外公开发表的有关AI诊断冠心病的诊断性试验。此外,追溯纳入文献的参考文献,以补充获取相关文献。检索时限为自建库至2021年6月30日。采用主题词+自由词的检索方式,英文检索词包括coronary artery disease,coronary artery stenosis, coronary heart disease,artificial intelligence,deep learning,machine learning,algorithms;中文检索词包括冠心病、人工智能、算法、机器学习、深度学习等。以PubMed数据库为例,其具体检索策略见框1。
框1 PubMed检索策略
1.3 文献筛选与数据提取由两名研究者根据纳排标准,独立筛选符合条件的研究,若出现不一致之处,则进行协商讨论,或交由第三人来裁定。首先对标题和摘要符合纳入标准的文献进行全文检索和分析,然后筛选符合标准的文献并采集相关资料。
从文献中提取研究的基本信息和所关注的结局指标和结果测量数据。基本信息包括第一作者、发表年限、研究地区、样本量;结局指标和结果测量数据包括直接获得的TP、FP、FN、TN、敏感度(Sen)、特异度(Spe)、准确度(Acc)等,或通过2×2混淆矩阵计算得出的指标[12]。
1.4 质量评价使用诊断性试验的质量评价工具QUADAS-2来评价纳入研究的质量。这一评价工具主要包括病例选择、试验评价、参考诊断金标准、病例流程和进展等四个方面,每个条目按“高风险”(high risk)、“低风险”(low risk)、“不清楚”(unclear)进行分级。
1.5 统计学分析采用 RevMan 5.4软件和Meta-disc 1.4软件进行统计分析。首先通过Spearman 相关分析检验有无阈值效应引起的异质性,并采用Cochran-Q检验及I2值检验是否存在非阈值效应引起的异质性。若I2<50%,认为研究结果间异质性较低,采用固定效应模型进行合并;若I2≥50%,认为研究间异质性较高,采用随机效应模型进行合并。
根据诊断金标准,分别入选文献中的AI诊断系统诊断冠心病的2×2四格表,计算合并的Sen、Spe、阳性似然比(+LR)、阴性似然比(-LR)、诊断比值比(DOR)及95%可信区间(95%CI),同时绘制综合受试者工作特征曲线(SROC)并计算受试者工作特征曲线下面积(AUC),评价AI诊断冠心病的诊断价值。一般而言,AUC值>0.9、0.7~0.9、0.5~0.7和<0.5分表代表极高诊断价值、较高诊断价值、较低诊断价值和无诊断价值[13]。
通常而言,为建立诊断冠心病的AI模型,通常将数据集分为训练集和测试集。其中,训练集用于训练诊断冠心病的AI模型,而测试集则用于检验最终选择出的最优模型的性能。本研究中仅将测试集的数据用于Meta分析。如文献未提及具体训练集和测试集分组情况,则记录整个样本集数据。本文采用诊断准确性试验的系统评价/Meta分析报告规范(PRISMA-DTA)[14]来进行报告。
2 结果
2.1 文献筛选流程及结果初检出相关文献3985篇,经逐层筛选后,最终纳入11项研究,其中9篇英文文献[15-23],2篇中文文献[24,25],共2898例患者。文献筛选流程见图1。
图1 文献筛选流程
2.2 纳入研究的基本特征与偏倚风险评价结果纳入研究的基本特征见表1,偏倚风险评价结果见表2。
表2 纳入研究的偏移风险评价结果
2.3 Meta分析结果检验是否存在阈值效应引起的异质性。Meta-Disc1.4软件显示,ROC平面散点图不呈“肩臂状”分布,Spearman相关系数ρ=0.018,P>0.05,说明Sen与(1-Spe)的对数不呈强正相关,不存在阈值效应引起的异质性。对其他来源的异质性进行检验, 结果显示各研究结果间Sen(χ2=154.53, P<0.001,I2=93.5%)、Spe(χ2=190.89,P<0.001,I2=94.8%),DOR(χ2=89.84,P<0.001,I2=88.9%),研究间存在非阈值效应引起的异质性,故采用随机效应模型进行Meta分析。
Meta分析结果显示,Sen为0.82(95%CI:0.81,0.84),Spe为0.64(95%CI:0.61,0.67),+LR为4.01(95%CI:2.23,7.21),-LR为0.18(95%CI:0.13,0.27),DOR为22.52(95%CI:10.28,49.31),AUC为0.90,见图2~7。将单项研究逐一排除,进行敏感性分析。结果显示合并的SEN、SPE、DOR未发生明显改变,说明本研究结果的稳定性较好。
图2 以患者为分析单位的人工智能诊断冠心病敏感度的Meta分析
图3 以患者为分析单位的人工智能诊断冠心病特异度的Meta分析
图4 以患者为分析单位的人工智能诊断冠心病阳性似然比的Meta分析
图5 以患者为分析单位的人工智能诊断冠心病阴性似然比的Meta分析
图6 以患者为分析单位的人工智能诊断冠心病诊断比值比的Meta分析
图7 以患者为分析单位的人工智能诊断冠心病的SROC曲线
按照不同AI算法类型、AI提取数据类型和诊断金标准进行亚组分析。将AI算法类型分为机器学习、深度学习和其他类型算法;AI提取数据分为CTA图像、基线及临床数据和SPECT结果;诊断金标准分为CAG、CTA和其他进行分组。①不同AI算法类型的亚组分析结果显示,机器学习算法诊断冠心病效能最佳(Sen=0.87,Spe=0.81,DOR=28.03),深度学习算法虽具有较高的Sen(0.86),但Spe不高(0.50)。②不同AI提取数据的亚组分析结果显示,当AI提取的数据类型为CTA图像时,可以获得较高的诊断效能(Sen=0.91,Spe=0.80,DOR=29.52)。③不同金标准的亚组分析结果显示,将CAG截断值设置为70时,诊断效能最高(DOR=29.17),明显优于CAG截断值为50组(DOR=23.54)和CTA组(DOR=16.43),表3。
表3 亚组分析结果
3 讨论
本Meta分析结果表明,AI诊断CAD诊断价值较高,具有较高敏感性,但特异性较低。本研究共纳入11篇文献,2898例患者。Meta分析结果显示,AI诊断冠心病患者的Sen为0.82,Spe为0.64,说明漏诊率为18%,误诊率为36%,提示AI诊断冠心病的能力相对较好,82%的冠心病可能被鉴别出来;但特异度较差,若仅依赖AI技术诊断冠心病可能会增加后续侵入性检查的风险。虽然有研究发现,与医生诊断CAD相比,AI诊断CAD的诊断灵敏度更高,但这可能是一种报告偏倚[21]。+LR=4.01,-LR=0.18,AUC=0.90,DOR=22.52,说明应用AI诊断CAD准确性较高,有较高的诊断价值。本研究与Krittanawong等[26]的结果相似,评价了AI技术在心血管疾病方面的诊断价值和预后预测价值。但本研究首次聚焦于CAD领域,对AI算法技术在CAD中的诊断价值进行评价,证实AI在诊断CAD方面具有一定潜力。
本研究结果提示存在较大的异质性,而Spearman相关检验结果提示不存在因阈值效应造成的异质性。因此,为探讨异质性的来源,我们进行了亚组分析。综合亚组分析结果,AI算法类型、AI提取数据类型和诊断金标准解释了一定的异质性来源。目前AI技术仍在不断改进、创新,这使AI在医疗领域的应用范围从分析传统的大数据结果扩展到辅助医生进行疾病诊断。部分研究中应用的AI模型是根据诊断需求所定制的[22],更符合CAD的病理生理特点,这可能是其诊断效能较高的原因。ML的主要原理是对已有数据进行反复学习,其在处理大量且结构复杂的图像数据方面具有一定优势,是医学影像识别、分析和诊断最常用的算法模型。在本研究中,ML诊断CAD也获得了较高的敏感度和特异度,诊断意义较为稳定可靠。不同的研究中金标准的界定存在差异,这可能影响对AI算法模型诊断价值的判断。在本Meta分析中,绝大多数所研究中金标准均设为CAG≥50%。而Yoneyama等[21]的研究将CAG的截断值设置为70%,这可能会在一定程度上增加AI算法模型的特异度。AI提取的数据类型不同也可能导致AI技术诊断性能出现差异。CTA是诊断CAD最重要的无创性辅助检查[27],但检查设备和不同医生对CTA结果理解的差异,可能导致判读CTA结果存在一定主观性。目前,AI已应用于读取CTA图像信息,并进行了评估冠脉斑块组成和特征、协助临床诊疗、指导后续病情管理、判断患者预后等尝试[28-30]。也有研究发现,在构建AI诊断冠心病的算法模型时,不同辅助检查结果、人口学特征及临床症状诊断价值差距较大[31]。因此,建立标准化、实用性强和可重复性佳的AI算法疾病诊断模型具有较高临床意义。但实现这一技术仍需要临床医生和科研工作者的密切配合,培养交叉学科人才势在必行。医务工作者需要在创建AI算法模型时,协助解释各类信息的临床意义,将不同性质的临床症状和定性或定量的辅助检查结果结合起来,整合不同类型临床数据的优势,减少临床诊断价值较低信息的占比,以加快AI诊断的运算速度,最终优化、完善算法模型。
本研究仍存在一些局限性:①虽然我们对异质性进行了分析,但本研究的高异质性可能来自于AI算法模型提取的患者来源不同、样本数量不同等;②本研究纳入的研究数量有限,且多为单中心研究。但本研究共纳入2898例患者,样本量尚可支持研究结论;③本研究仅纳入了中英文文献,存在语言偏倚;④不同的算法模型在进行性能调试时选用的测试集样本量不同,可能会对算法模型的诊断价值产生一定影响。日后应扩大测试集的样本量,选择更稳定的算法模型。⑤在部分研究中,AI技术通过处理、分析患者的图像信息来诊断CAD,因此获取到的患者图像质量、不同的操作仪器、不同的仪器参数设置都可能影响AI的诊断价值。未来应尽量排除其他影响因素的干扰,进一步评估AI的作用。
综上,AI作为CAD诊断手段时,具有较高的诊断价值。临床应用时,应综合病史与其他检查结果后,将AI算法模型作为诊断CAD的有力工具。日后应选择合适的AI算法模型,并进行较大样本量的测试与训练。