急性上消化道出血的危险分级及临床应用
2022-11-22李雪董永祺何松
李雪,董永祺,何松
【提要】 急性上消化道出血(AUGIB)是消化系统住院治疗的急危重症之一,有较高的发生率以及死亡率。早期对患者进行危重程度分类,有助于对高危患者进一步监护及积极治疗,从而改善患者的临床结局。目前,已经有部分指南推荐使用RS、GBS、AIMS65评分系统对急性上消化道出血患者进行危险分级。然而尚缺乏广泛推广并临床应用的危险分级工具。近年来对危险分级和预后评估系统的研究逐渐增多,本文就近年急性上消化道出血的危险分级系统及临床应用作一综述。
急性上消化道出血(acute upper gastrointestinal bleeding,AUGIB)是消化系统疾病的急危重症之一,整体死亡率波动2%~8%,由于相关药物的使用以及内镜技术的进展,上消化道出血的发生率和死亡率已较前显著下降[1-4]。即便如此,其复发率、病死率仍然高于下消化道出血[5],是威胁公众卫生健康的疾病之一。近年来国内外相关协会及专家组对急性上消化道出血的规范诊疗颁布了新的指南或共识,强调对上消化道出血患者进行危重程度分类并推荐采用危险评分系统对患者的危重程度进行分级[6-10]。根据患者的不同危险分级制定不同的临床决策,从而改善患者的死亡率、再出血率、输血量、介入治疗率等临床结局,并且实现医疗资源的合理分配及响应分级诊疗号召。近年来,关于急性上消化道出血患者危险分级系统的研究逐渐增多。
1 评分系统
许多研究建立了不同的评分系统对急性上消化道出血进行危险分级。其中RS评分(Rockall Score)[11]、GBS评分(The Glasgow Blatchford Score)[12]、AIMS65评分[13]目前研究最为广泛,且部分指南已经有推荐其作为临床使用[7-10]。根据评分项目是否包含内镜检查结果,将评分系统分为内镜依赖型评分系统和非内镜依赖型评分系统。而近年进展迅猛的人工智能评分模型,部分模型纳入内镜检查结果,而另一部分没有纳入内镜检查结果,故在此单独列出。
1.1 内镜依赖型评分系统
1.1.1 RS评分 RS评分[11]在1996年由Rockall等人提出,最初用于预测急性上消化道出血患者的死亡和再出血风险。评分系统由年龄、休克状态、合并症、内镜下诊断和内镜所见的近期出血征象组成,评分总分0~11分,当RS评分≤8分时,被视为死亡高风险患者。
1.1.2 PNED评分 PNED(Progetto Nazionale Endoscopia Digestiv)评分[14]是分析急性非静脉曲张性上消化道出血患者30天死亡危险因素的基础上形成的。根据患者的人口形态学特征、实验室指标、合并症、内镜治疗结果等一共10项指标,对急性非静脉曲张性上消化道出血患者的死亡风险进行分级。分值介于0~4分视为低风险患者,5~8分视为中风险患者,>8分则被视为高风险患者。
1.1.3 预测大量输血模型 台湾学者Chen YC等建立了预测大量输血模型[15],通过对患者生命体征、常规生化指标、是否行内镜下治疗共5个方面赋予不同的分值权重(1~8分)对危重程度进行分级(低风险0~5分;一般风险6.5~7.5分;高风险>7.5分)。
内镜依赖型评分系统需要结合内镜检查结果,有些医疗机构无法提供24 h内镜检查或治疗,所以无法据此进行早期的风险评估,这在一定程度上限制了内镜依赖型评分系统的应用。若需要结合内镜检查结果,则许多新的内镜技术,例如常规内镜检查或治疗同时加用多普勒超声内镜探头检测出血部位的动脉血流,可能进一步提高危险分级的能力[16]。
1.2 非内镜依赖型评分系统
1.2.1 pRS评分 pRS评分(pre-endoscopic Rockall Score)[11]是在RS评分的基础上衍生而来,排除了内镜诊断和近期出血征象2项评分内容,使得无需借助内镜检查结果即可对疾病的危重程度进行早期判断。
1.2.2 GBS评分与mGBS评分 GBS评分[12]于2000年由Blatchford O等提出,该评分系统更加侧重于识别患者的治疗需要(治疗需要定义为需要输血、止血干预、再出血或死亡)。GBS评分共包含血尿素氮、血红蛋白水平、收缩压、脉搏、黑便、晕厥、肝脏疾病、心力衰竭共8个指标,取值范围为0~23分。为了便于临床的应用,同时排除主观因素对评分结果的影响,Cheng DW 等提出了mGBS评分(modified Glasgow Blatchford Score)[17]。与RS评分、GBS评分不同,mGBS评分排除了肝脏疾病、心力衰竭、有无晕厥和黑便这4项主观指标,仅仅将定量的指标纳入评分系统,并通过前瞻性队列研究将其与GBS评分、RS评分等进行比较,结果显示其预测是否需要临床干预的能力并不劣于GBS评分,甚至优于RS评分。但近年来就mGBS评分的研究较少,故其对临床结局的预测能力尚缺乏足够的统计学证据。
1.2.3 AIMS65评分 AIMS65评分[13]是相对更易于计算的床旁评分系统,包括以下几项指标:白蛋白、国际标准化比值(INR)、神志改变、收缩压、年龄。AIMS65评分最初主要设计用于评估患者的在院死亡率、住院时间以及住院费用。
1.2.4 ABC评分 为了进一步明确全消化道出血(包括上消化道和下消化道)的30 d死亡风险,2021年Laursen SB等[18]根据对3 012名上消化道出血患者的队列研究结果,新建了ABC评分系统。ABC即年龄(age)、血液指标(blood tests)和合并症(comorbidities)的缩写,血液指标主要包含尿素氮、白蛋白、血清肌酐值3项指标,合并症则主要包含了神志改变、肝硬化、肿瘤转移、ASA(美国麻醉医师学会)分级4项指标。
1.2.5 CANUKA评分 CANUKA评分于2018年由Oakland K等[19]提出,根据来源于5个国际中心的共12 711例AUGIB患者的数据而形成。与GBS评分相比,两者均包含了血流动力学指标、合并症情况、临床表现(黑便、呕血)、实验室检查(血红蛋白水平、尿素),不同之处在于CANUKA将恶性肿瘤和年龄纳入评分指标,而GBS评分则将心力衰竭作为评分指标之一。在Oakland等的研究中,CANUKA评分预测死亡风险的能力稍优于GBS评分,而在预测输血需求和内镜治疗方面,GBS评分的诊断效能则优于CANUKA评分[19]。
1.2.6 CHAMPS-R评分 2021年,Matsuhashi T等[20]建立了CHAMPS-R评分,主要适用于住院期间发生的急性非静脉曲张性上消化道出血患者在院死亡风险的预测。该评分由查尔森合并症指数、是否为院内起病、白蛋白水平、意识改变等7个指标组成。
1.2.7 其他 新日本评分系统在2016年由Iino C等[21]提出并进行验证,其在预测治疗性干预需求方面略优于GBS评分。MAP(ASH)评分于2019年被提出,但其在预测30 d死亡率时受试者工作特征曲线下面积(AUROC)为0.74(95%CI 0.68~0.81),且预测再出血风险时的诊断效能与GBS评分相当(AUROC 0.73;95% CI 0.69~0.77)[22],总体而言其临床诊断效能不能令人十分满意。2021年,Firat BT等[23]基于219例AUGIB患者的数据分析,证明血流灌注指数(PI)在预测输血和预测死亡率的诊断效能显著优于RS评分,其AUROC波动在0.74~0.78。名古屋大学评分,又称为N评分,为预测内镜下治疗需要而建立的相对简便的评分系统,该评分仅由4项指标组成,在160名急性非静脉曲张性出血患者的验证队列中,N评分显示出了相对GBS评分更为优异的识别内镜治疗需要的能力[24]。
1.3 人工智能风险评估模型
随着科技进展,人工智能在消化内镜领域的应用逐渐拓展并拥有良好的前景。武汉市人民医院于红刚教授团队,建立了深度卷积神经网络系统(DCNNs),并将DCNNs识别食管胃底静脉曲张以及红色征的能力与内镜医师进行比较,结果显示DCNNs诊断的准确性显著优于内镜医师[25]。另一项多中心研究基于对1 958名AUGIB患者的临床数据,建立了ML模型并对其进行验证,结果表明ML模型在内部验证及外部验证队列中,其AUROC值均高于0.9,显著优于传统的GBS评分、RS评分和AIMS65评分[26]。
2 各个评分系统的临床应用
2.1 识别高风险患者
急性上消化道出血的患者往往起病急,病情重,早期对高风险患者进行识别,有助于对患者实施更高级别的监护和治疗。一项前瞻性观察性研究,比较了GBS评分和AIMS65评分识别高风险患者的能力,结果显示GBS评分识别高风险患者的敏感性和特异性优于AIMS65评分(AUCs 0.896 vs 0.714,P<0.001)[27]。一项纳入了3 012名AUGIB患者的国际多中心前瞻性研究,对pRS评分、RS评分、AIMS65评分、GBS评分和PNED评分不同临床结局的诊断效率进行比较并确定不同评分的高风险界值[28]。结果显示,GBS评分在诊断患者的内镜治疗需要和PNED评分在诊断患者的死亡风险时有相当不错的表现,进而定义GBS≥7分(Sn 80.4%,Sp 57.4%)为需要内镜治疗的中高风险患者,PNED≥4分(Sn 77.3%,Sp 65.3%)为30 d死亡的高风险患者。而近期一项研究AUGIB患者内镜治疗时机的大型随机对照研究,将GBS≥12分定义为再出血和死亡的高风险人群[29],其界值的确定以及诊断效率目前尚未形成共识。
2.2 识别低风险患者
早期识别无需住院或者进一步治疗的低风险患者,能够减少AUGIB患者的住院率及治疗费用,合理分配医疗资源,同时也能满足大多数患者在情况允许时不愿住院的意愿。综合近年来研究结果,GBS评分在诊断低风险患者的效率高于其他临床评分系统。一项前瞻性研究比较了GBS评分和AIMS65评分,发现GBS评分识别低危患者的敏感性显著高于AIMS65评分[27]。此外,一项纳入309名患者的前瞻性研究比较了GBS评分、AIMS65评分和RS评分,结果显示,当GBS=0分时,患者可以不必行内镜下治疗,而即使AIMS65评分=0仍然不能完全排除需要内镜治疗的患者[30]。但随着临床研究的开展,发现GBS≤1分在保证准确性的同时,相较于GBS=0分能更多地识别低危险患者[28,31]。所以近年来,指南更新指出,GBS≤1分定义为可门诊处理的低风险患者[8-9]。而与ML模型比较识别低风险患者能力时,同为敏感度100%的情况下,ML模型诊断的特异度(26%)高于GBS=0分的特异度(12%)。这意味着,在同样安全诊断的前提条件下,ML模型能够识别接近GBS=0分识别的2倍数量的可门诊处理的低风险患者[26]。
2.3 预测复合终点
复合终点的定义在不同的研究中往往有所不同,常常会以死亡率、再出血率、内镜下治疗率、介入治疗率、手术治疗、输血需求、住院时长等其中几项临床结局进行组合。对复合终点的预测能力评价,相对能够较为全面地评估一个危险分级的诊断效率。
前文述及的国际多中心大样本研究,对非内镜依赖型评分(pRS评分、AIMS65评分、GBS评分)以及内镜依赖型评分(RS评分、PNED评分)对复合终点的诊断效率进行了比较[28]。结果显示,GBS评分在预测复合终点的AUROC值为0.86,显著优于其他几个评分系统,且均存在统计学差异。而在另一项相对小样本量(424例研究患者)的研究中,AIMS65评分、GBS评分和RS评分预测复合终点的能力相当(AUROC分别为0.63、0.62、0.63)[31]。
近年,人工智能技术的进展有望成为全面评估临床结局的风险分级工具。Shung DL等人建立并比较了ML模型与其他评分在识别复合终点时的能力,无论在生成队列和验证队列中,ML模型(AUROC 0.90)的判别能力均优于GBS评分、pRS评分和AIMS65评分,且均具有统计学意义[26]。一篇纳入了14项观察性研究的系统评价结果显示,机器学习模型在预测AUGIB患者再出血、治疗干预需要、死亡风险等多个临床结局时均有相当优异的表现,AUC面积普遍在0.80以上,且在头对头比较中,机器学习模型预测死亡风险时也显著优于其他临床评分系统[32]。
2.4 预测死亡风险
死亡风险是多数研究和临床关心的重要临床结局之一。RS评分、AIMS65评分、PNED评分、ABC评分、CHAMPS-R评分最初即设计用于评估患者的死亡风险。
2.4.1 预测30 d死亡 AIMS65评分预测死亡风险的能力优于GBS评分和pRS评分。一项纳入3 000余名患者的前瞻性研究结果显示,AIMS65评分在预测30 d死亡率时优于GBS评分(AUROC 0.77 vs 0.64,P<0.001)和pRS评分(AUROC 0.77 vs0.72,P=0.05)[28]。
PNED评分对死亡风险的诊断效率也相对不错,但与AIMS65评分相比不同的研究所得结论则存在矛盾。在形成PNED评分的研究中(验证队列纳入1 548名AUGIB患者),作者对其预测死亡风险的特异性和敏感性进行了验证,结果显示,PNED评分预测30 d死亡率的ROC曲线下面积为0.81,显著优于RS评分(AUROC 0.66,P<0.001)[15]。Jeon HJ等[33]纳入1 048人的回顾性研究也同样表明其能够比较准确地预测30 d全因死亡率,并显著优于GBS评分、AIMS65评分及pRS评分。而Stanley AJ等[28]进行的多中心前瞻性研究显示,PNED预测死亡风险的能力,虽显著优于pRS评分和GBS评分,但与AIMS65评分相当(AUROC均为0.77)。
已有多项研究表明,ABC评分系统预测死亡风险的能力显著优于AIMS65评分、RS评分、PNED等评分系统。形成ABC评分系统的研究中,纳入3 012名AUGIB患者的生成队列中发现ABC评分识别30 d全因死亡率的能力显著优于PNED评分、pRS评分、ASA分级、RS评分、GBS评分。在4 019例AUGIB患者的验证队列中,比较了ABC评分与AIMS65评分在预测AUGIB患者30 d全因死亡率的能力,也得到同样的结果[18]。Jeon HJ等[33]纳入1 048人的回顾性研究表明,ABC评分在预测30 d全因死亡率时,显著优于新日本评分、GBS评分、AIMS65评分、PNED评分、pRS评分。在另一项国际多中心前瞻性研究中,ABC评分预测30 d死亡率的能力显著优于其他纳入比较的评分系统(GBS评分、AIMS65评分、休克指数、pRS评分)[34]。还有一项多中心前瞻性研究也显示,ABC评分预测90 d死亡风险的能力显著优于AIMS65评分和GBS评分[35]。
ML模型在预测死亡风险时也优于传统评分系统,但目前临床研究较少。在Shung D等[32]的研究中,运用提取的数据对机器学习模型与临床评分系统进行了22次比较,机器学习模型预测死亡率的AUROC波动在0.8~0.9之间,优于GBS评分、RS评分。
2.4.2 预测院内死亡率 一项纳入424名患者的单中心回顾性研究,对AIMS65评分、GBS评分、RS评分和pRS评分进行比较,结果表明,预测院内死亡风险时,AIMS65评分显著优于GBS评分和pRS评分,而与RS评分相当[36]。同样地,另外两项相对小型的前瞻性队列研究结果也显示,AIMS65预测患者死亡风险的能力显著强于GBS评分[37-38]。而在Matsuhashi T等[20]的研究中,CHAMPS-R评分无论在生成队列或在验证队列中,预测院内死亡率的诊断效能均优于GBS评分、ABC评分、AIMS65评分、pRS评分。
3 总结与展望
在传统的危险分级和评分系统中,GBS评分在识别高风险患者、识别低风险患者方面有相对优异的诊断效能。在识别复合终点方面,GBS的诊断敏感性和特异性依然不错,但诸多研究所得的结论仍不能统一。在预测死亡风险方面,近期新提出的ABC评分系统诊断死亡风险的敏感性和特异性相对较好,但其当前的临床研究数据有限,需要更多的大型多中心临床研究对其进行验证和比较。与传统的风险分级系统相比,人工智能在评估风险的全面性、诊断的特异性和敏感性方面似乎均优于传统的评分系统。但其能否用于临床仍然存在巨大的挑战:①模型的建立十分复杂,需要大量的内部和外部数据进行验证;②缺乏大型对照研究,目前有不少研究建立了ML模型,而对该模型的外部数据验证研究较少,无法提供更多可靠的统计学证据。因此,对已有的ML风险分级模型进行大样本前瞻性队列研究十分必要。此外,目前无法单独应用一个评分系统对多个重要的临床结局进行全面综合地评估,且即便在已有的评分系统中,其危险分级的敏感性和特异性仍不能令人十分满意。需要更多的临床研究改良不同危险分级系统,提高其效能,期待建立一个诊断敏感度高、特异度高地能全面预测患者预后的风险分级工具。